CN111341324A - 一种基于fasttest模型的识别纠错及训练方法 - Google Patents

一种基于fasttest模型的识别纠错及训练方法 Download PDF

Info

Publication number
CN111341324A
CN111341324A CN202010416525.9A CN202010416525A CN111341324A CN 111341324 A CN111341324 A CN 111341324A CN 202010416525 A CN202010416525 A CN 202010416525A CN 111341324 A CN111341324 A CN 111341324A
Authority
CN
China
Prior art keywords
model
label
fasttest
voice
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010416525.9A
Other languages
English (en)
Other versions
CN111341324B (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN202010416525.9A priority Critical patent/CN111341324B/zh
Publication of CN111341324A publication Critical patent/CN111341324A/zh
Application granted granted Critical
Publication of CN111341324B publication Critical patent/CN111341324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于fasttest模型的识别纠错方法,包括:获取待识别的语音对话流;将待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频;将第一聚类音频输入ASR模型中进行语音识别获得第一聚类音频的第一语音识别结果,将第二聚类音频输入ASR模型中进行语音识别获得第二聚类音频的第二语音识别结果;将第一语音识别结果输入fasttest模型进行二分类判断,获得第一语音识别结果的第一最终标签,将第二语音识别结果输入fasttest模型进行二分类判断,获得第二语音识别结果的第二最终标签。

Description

一种基于fasttest模型的识别纠错及训练方法
技术领域
本发明涉及语音分类领域,尤其涉及一种基于fasttest模型的识别纠错及训练方法。
背景技术
目前,在语音质检的场景中,大部分的厂商均不支持双声道来存储,而单声道存储涉及到声纹分离的工作。如果仅仅通过听录音进行质检,不仅费时费力,而且会遗漏掉badcase,不及时处理这类问题,很容易对公司未来的收益造成隐患。而声纹识别将一段录音拆分成qa(question,问题;answer,答案)的方式,并通过ASR语音识别转化为文字的形式,大幅度降低单通电话的质检时间,不仅提高了效率并且大大增加了badcase的召回率。
此外,由于目前大部分的厂商的客服都不是固定的,人员流动大,基于声纹库进行识别分类,不仅维护困难,而且成本较大。而基于聚类方法进行无监督识别,又容易受到噪声、人的情绪干扰,使得准确率低下,难以符合预期达到商用的效果。
发明内容
本发明要解决的技术问题,在于提供一种基于fasttest模型的识别纠错及训练方法,对声纹识别的二聚类结果通过fasttest模型再进行二分类,提高说话人的分类准确率。
为实现上述目的,本发明采用下述技术方案:
第一方面,本发明提供一种基于fasttest模型的识别纠错方法,所述方法包括:
获取待识别的语音对话流;将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频,其中,所述第一聚类音频为带有第一初始标签的音频集合,所述第二聚类音频为带有第二初始标签的音频集合;将所述第一聚类音频输入ASR模型中进行语音识别获得所述第一聚类音频的第一语音识别结果,将所述第二聚类音频输入ASR模型中进行语音识别获得所述第二聚类音频的第二语音识别结果,其中,所述第一语音识别结果为第一聚类音频的文本集合,所述第二语音识别结果为第二聚类音频的文本集合;将所述第一语音识别结果输入fasttest模型进行二分类判断,获得所述第一语音识别结果的第一最终标签,将所述第二语音识别结果输入fasttest模型进行二分类判断,获得所述第二语音识别结果的第二最终标签。
在上述方案中,所述方法还包括:
将所述第一语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第一语音识别结果中每一个文本的标签,将每一个文本的标签与第一最终标签进行比对,其中某个文本的标签与第一最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
在上述方案中,所述方法还包括:
将所述第二语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第二语音识别结果中每一个文本的标签,将每一个文本的标签与第二最终标签进行比对,其中某个文本的标签与第二最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
在上述方案中,获取待识别的语音对话流之后,将所述待识别的语音对话流转换为wav格式。
第二方面,本发明提供一种fasttest模型的训练方法,应用于fasttest模型,所述训练方法包括:
获取两个不同说话人的语音段;
将所述两个不同说话人的语音段进行预处理获得预处理后的语音段;
对所述预处理后的语音段按照说话人进行标记,获得带有标签的语音段;
将所述带有标签的语音段输入fasttest模型进行训练。
在上述方案中,将所述两个不同说话人的语音段进行预处理包括:去停用词和进行分词。
本发明的有益效果是:
1、本发明提供一种基于fasttest模型的识别纠错方法,首先将对话语音通过声纹识别分割成聚类音频,再将聚类音频输入ASR中获得聚类音频的识别文本,通过识别文本输入fasttest模型进行二分类判断获得最终的聚类音频的标签,既无需声纹数据库、声纹注册,也不用再去对声纹进行标注,降低了系统开销和人工成本;
2、在聚类音频标签的基础上,本发明通过对文本集合中的每一个文本单独进行二分类判断,避免因声纹识别模型误切分造成的音频分类错误;
3、本发明融合了多模型进行分类判断及纠错,鲁棒性更强,准确率更高。
附图说明
图1为本发明提供的一种基于fasttest模型的识别纠错方法的流程示意图;
图2为本发明提供的一种fasttest模型的训练方法的流程示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明中各实施例提供的技术方案。
第一方面,本发明实施例提供一种基于fasttest模型的识别纠错方法,如附图1所示,所述方法包括:
S101,获取待识别的语音对话流;
一般性地,获取待识别的语音对话流之后,将所述待识别的语音对话流转换为wav格式。
S102,将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频;
其中,所述第一聚类音频为带有第一初始标签的音频集合,所述第二聚类音频为带有第二初始标签的音频集合。
一般性地,将wav格式的语音对话流输入声纹识别模型后,将同一说话人的音频进行聚类获得同一说话人的音频集合,并且对同一说话人的音频集合进行标注。在本发明中,语音对话流一般为两个不同说话人之间的对话,获得的音频集合分别为第一聚类音频和第二聚类音频,第一聚类音频对应第一说话人音频集合,第二聚类音频对应第二说话人音频集合。分别对第一聚类音频和第二聚类音频进行打标,第一聚类音频打标为第一初始标签,第二聚类音频打标为第二初始标签。
S103,将所述第一聚类音频输入ASR(Automatic Speech Recognition,自动语音识别)模型中进行语音识别获得所述第一聚类音频的第一语音识别结果,将所述第二聚类音频输入ASR模型中进行语音识别获得所述第二聚类音频的第二语音识别结果;
其中,所述第一语音识别结果为第一聚类音频的文本集合,所述第二语音识别结果为第二聚类音频的文本集合。
S104,将所述第一语音识别结果输入fasttest模型进行二分类判断,获得所述第一语音识别结果的第一最终标签,将所述第二语音识别结果输入fasttest模型进行二分类判断,获得所述第二语音识别结果的第二最终标签。
在一个示例中,所述方法还包括:
将所述第一语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第一语音识别结果中每一个文本的标签,将每一个文本的标签与第一最终标签进行比对,其中某个文本的标签与第一最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
将所述第二语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第二语音识别结果中每一个文本的标签,将每一个文本的标签与第二最终标签进行比对,其中某个文本的标签与第二最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
第二方面,本发明实施例提供一种fasttest模型的训练方法,应用于fasttest模型,如附图2所示,所述训练方法包括:
S201,获取两个不同说话人的语音段;
S202,将所述两个不同说话人的语音段进行预处理获得预处理后的语音段;
在一个示例中,将所述两个不同说话人的语音段进行预处理包括:去停用词和进行分词。
S203,对所述预处理后的语音段按照说话人进行标记,获得带有标签的语音段;
S204,将所述带有标签的语音段输入fasttest模型进行训练。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本发明的保护范围之内。

Claims (6)

1.一种基于fasttest模型的识别纠错方法,其特征是,所述方法包括:
获取待识别的语音对话流;将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频,其中,所述第一聚类音频为带有第一初始标签的音频集合,所述第二聚类音频为带有第二初始标签的音频集合;将所述第一聚类音频输入ASR模型中进行语音识别获得所述第一聚类音频的第一语音识别结果,将所述第二聚类音频输入ASR模型中进行语音识别获得所述第二聚类音频的第二语音识别结果,其中,所述第一语音识别结果为第一聚类音频的文本集合,所述第二语音识别结果为第二聚类音频的文本集合;将所述第一语音识别结果输入fasttest模型进行二分类判断,获得所述第一语音识别结果的第一最终标签,将所述第二语音识别结果输入fasttest模型进行二分类判断,获得所述第二语音识别结果的第二最终标签。
2.根据权利要求1所述的一种基于fasttest模型的识别纠错方法,其特征是,
所述方法还包括:
将所述第一语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第一语音识别结果中每一个文本的标签,将每一个文本的标签与第一最终标签进行比对,其中某个文本的标签与第一最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
3.根据权利要求1所述的一种基于fasttest模型的识别纠错方法,其特征是,
所述方法还包括:
将所述第二语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第二语音识别结果中每一个文本的标签,将每一个文本的标签与第二最终标签进行比对,其中某个文本的标签与第二最终标签不一致时,通过人工设定的阈值判断是否更改该文本的标签。
4.根据权利要求1所述的一种基于fasttest模型的识别纠错方法,其特征是,
获取待识别的语音对话流之后,将所述待识别的语音对话流转换为wav格式。
5.一种fasttest模型的训练方法,应用于fasttest模型,其特征是,所述训
练方法包括:
获取两个不同说话人的语音段;
将所述两个不同说话人的语音段进行预处理获得预处理后的语音段;
对所述预处理后的语音段按照说话人进行标记,获得带有标签的语音段;
将所述带有标签的语音段输入fasttest模型进行训练。
6.根据权利要求5所述的一种fasttest模型的训练方法,其特征是,将所述两
个不同说话人的语音段进行预处理包括:去停用词和进行分词。
CN202010416525.9A 2020-05-18 2020-05-18 一种基于fasttext模型的识别纠错及训练方法 Active CN111341324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010416525.9A CN111341324B (zh) 2020-05-18 2020-05-18 一种基于fasttext模型的识别纠错及训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010416525.9A CN111341324B (zh) 2020-05-18 2020-05-18 一种基于fasttext模型的识别纠错及训练方法

Publications (2)

Publication Number Publication Date
CN111341324A true CN111341324A (zh) 2020-06-26
CN111341324B CN111341324B (zh) 2020-08-25

Family

ID=71184909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010416525.9A Active CN111341324B (zh) 2020-05-18 2020-05-18 一种基于fasttext模型的识别纠错及训练方法

Country Status (1)

Country Link
CN (1) CN111341324B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807973A (zh) * 2021-09-16 2021-12-17 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
WO2022178933A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 基于上下文的语音情感检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
JP2005321530A (ja) * 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN108074574A (zh) * 2017-11-29 2018-05-25 维沃移动通信有限公司 音频处理方法、装置及移动终端
CN109448728A (zh) * 2018-10-29 2019-03-08 苏州工业职业技术学院 融合情感识别的多方会话可视化方法和系统
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法
JP2019532354A (ja) * 2016-09-12 2019-11-07 ピンドロップ セキュリティー、インコーポレイテッド ディープニューラルネットワークを使用する端末間話者認識

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
JP2005321530A (ja) * 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
JP2019532354A (ja) * 2016-09-12 2019-11-07 ピンドロップ セキュリティー、インコーポレイテッド ディープニューラルネットワークを使用する端末間話者認識
CN108074574A (zh) * 2017-11-29 2018-05-25 维沃移动通信有限公司 音频处理方法、装置及移动终端
CN109448728A (zh) * 2018-10-29 2019-03-08 苏州工业职业技术学院 融合情感识别的多方会话可视化方法和系统
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022178933A1 (zh) * 2021-02-26 2022-09-01 平安科技(深圳)有限公司 基于上下文的语音情感检测方法、装置、设备及存储介质
CN113807973A (zh) * 2021-09-16 2021-12-17 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113807973B (zh) * 2021-09-16 2023-07-25 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111341324B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
US10950241B2 (en) Diarization using linguistic labeling with segmented and clustered diarized textual transcripts
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
CN111341324B (zh) 一种基于fasttext模型的识别纠错及训练方法
CN117219110A (zh) 一种适用于录音工牌的话者分离方法
US20230238002A1 (en) Signal processing device, signal processing method and program
Burkhardt et al. Advances in anger detection with real life data
CN111916112A (zh) 一种基于语音和文字的情绪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A recognition, error correction and training method based on fasttext model

Effective date of registration: 20211203

Granted publication date: 20200825

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220322

Granted publication date: 20200825

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A recognition, error correction and training method based on fasttext model

Effective date of registration: 20220322

Granted publication date: 20200825

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230131

Granted publication date: 20200825

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PC01 Cancellation of the registration of the contract for pledge of patent right