CN111554293A - 语音识别中噪音的过滤方法、装置、介质及对话机器人 - Google Patents

语音识别中噪音的过滤方法、装置、介质及对话机器人 Download PDF

Info

Publication number
CN111554293A
CN111554293A CN202010185581.6A CN202010185581A CN111554293A CN 111554293 A CN111554293 A CN 111554293A CN 202010185581 A CN202010185581 A CN 202010185581A CN 111554293 A CN111554293 A CN 111554293A
Authority
CN
China
Prior art keywords
text
input text
sentence
word
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010185581.6A
Other languages
English (en)
Other versions
CN111554293B (zh
Inventor
孙非凡
姚沁玥
孙信中
吴涵渠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aoto Electronics Co Ltd
Original Assignee
Shenzhen Aoto Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aoto Electronics Co Ltd filed Critical Shenzhen Aoto Electronics Co Ltd
Priority to CN202010185581.6A priority Critical patent/CN111554293B/zh
Publication of CN111554293A publication Critical patent/CN111554293A/zh
Application granted granted Critical
Publication of CN111554293B publication Critical patent/CN111554293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种语音识别中噪音的过滤方法、装置、介质及对话机器人。过滤方法用于指定场景下的噪音文本的过滤,包括:获取语音语料,并将语音语料转化为文本信息,得到输入文本;将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。本申请提供了在一指定场景下使用的、能够过滤掉清晰人声的噪音的软过滤方案,能够减少噪音文本流入对话系统,以提升智能交互系统在实际应用中的表现。

Description

语音识别中噪音的过滤方法、装置、介质及对话机器人
技术领域
本发明涉及语音识别处理技术领域,特别是涉及一种语音识别中噪音的过滤方法、装置、介质及对话机器人。
背景技术
服务于某一指定场景(如营业厅)的语音交互系统可以与客户进行智能化的人机交互,并有针对性地为用户提供引导,答疑,和推荐等个性化服务,具有低成本、高效率的优势。
然而,在实际场景应用中,客观环境多变且有诸多不确定因素。环境噪音、嘈杂的人声、广播、音乐和旁人的聊天,都有可能对语音识别模块(ASR)造成干扰,导致识别出一些无实际意义的、无关用户意图的噪音文本。这些噪音文本继续进入对话系统将对其后续的判断形成干扰,一方面,影响自然语言理解模块(NLU)对用户意图的判断,有几率将噪音文本识别成已存在的用户意图,甚至错误地提取到词槽关键词,让这些干扰信息流入下一个环节;另一方面,错误的意图和词槽会造成对话管理模块(DM)作出错误的动作预测,从而给用户错误的或无效的反馈,影响对话系统的流畅度与可靠程度,降低用户体验。基于上述原因,噪音文本的存在使得对话系统需要对意图识别的可信度更加谨慎,一定程度上限制了NLU的泛化能力,降低其对人类自然语言多变的适应性。若能在前期将大部分噪音文本进行过滤,将很有机会提升对话系统在实际应用中的表现。
当前的噪音过滤技术更多依赖硬件,判断声源,设置语音起点(如hi siri),然而如何过滤掉清晰的人声噪音仍是一大难题。
发明内容
基于此,有必要针对如何过滤掉清晰的人声噪音的问题,提供一种语音识别中噪音的过滤方法、装置、介质及对话机器人。
本申请第一方面提供一种语音识别中噪音的过滤方法,用于指定场景下的噪音文本的过滤,包括:
获取语音语料,并将语音语料转化为文本信息,得到输入文本;
将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;
根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。
本申请第二方面提供一种指定场景下语音识别中噪音的过滤装置,包括:
语料获取部件,用于获取语音语料;
文本转化部件,用于将语音语料转化为文本信息,得到输入文本;
相关性模型,用于基于一个指定场景下的专业语料库判断输入文本与指定场景的相关性;
过滤部件,用于根据相关度确定噪音文本,将噪音文本过滤,若不是噪音文本,则输入到对话系统。
通过构建一个指定场景下对应领域的专业语料库,并基于专业语料库对输入文本进行相关性判定、通顺度判定,通过相关性和通顺度来确定是否将输入文本输入到对话系统,能够实现清晰人声的噪音过滤。通过对文本进行二次噪音过滤,确保文本符合自然语言表达习惯以及文本符合对话系统的应用场景。噪音过滤模型可以通过降低对话系统对阈值的需求来减少敏感度的牺牲,以此达到更高的准确率。
本申请第三方面提供一种机器可读存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现前述的语音识别中噪音的过滤方法。
本申请第四方面提供一种对话机器人,包括:处理器;存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行前述的语音识别中噪音的过滤方法。
附图说明
图1为本申请一实施例的语音识别中噪音的过滤方法的流程示意图;
图2为本申请另一实施例的语音识别中噪音的过滤方法的流程示意图;
图3为本申请又一实施例的语音识别中噪音的过滤方法的流程示意图;
图4为本申请又一实施例的语音识别中噪音的过滤方法的流程示意图;
图5为本申请一实施例的过滤方法的通顺度判定的流程示意图;
图6为本申请另一实施例的过滤方法的通顺度判定的流程示意图;
图7为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图8为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图9为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图10为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图11为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图12为本申请又一实施例的过滤方法的通顺度模型的神经网络的结构示意图;
图13为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图14为本申请又一实施例的过滤方法的通顺度判定的流程示意图;
图15为本申请又一实施例的语音识别中噪音的过滤方法的流程示意图;
图16为本申请一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图17为本申请另一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图18为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图19为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图20为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图21为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图22为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图;
图23为本申请一实施例的过滤装置的通顺度模型的结构示意图;
图24为本申请又一实施例的指定场景下语音识别中噪音的过滤装置的结构示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在本申请的各实施例中,为了便于描述而非限制本申请,本申请专利申请说明书以及权利要求书中使用的术语“连接”并非限定于物理的或者机械的连接,不管是直接的还是间接的。“上”、“下”、“上方”、“下方”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也相应地改变。
本申请各实施例的语音识别中噪音的过滤方法,提供了在一指定场景下使用的、能够过滤掉清晰人声的噪音的软过滤方案,能够减少噪音文本流入对话系统,以提升智能交互系统在实际应用中的表现。
可以理解,尽管在下文中,本申请的一些实施例中将方法应用于指定场景——银行营业厅,但这不应理解为限制性的,而是为了更好的介绍实施例所作出的示例性说明,在适当对专业语料库进行变更后,相应方法可以适用于多种不同的指定场景,指定场景包括但不限于:银行营业厅、移动营业厅、酒店大堂等可以引入对话机器人的场合。
请参阅图1,示例性的示出了本申请一实施例的语音识别中噪音的过滤方法的流程示意图,过滤方法包括如下步骤:
S10:获取语音语料,并将语音语料转化为文本信息,得到输入文本;
过滤方法用于语音识别过程中的噪音过滤,因而,首先需要获取语音语料。捕获到得语音语料为声频信息,将语音语料由声频信息转化为文本信息,有利于有效信息的抓捕,并利于后续的处理。
可以理解,语音语料的捕获方案,以及将语音语料转化为文本信息在市面上已有较为成熟的方案,在具体实施本申请的方案时可以直接采用。例如,语音语料的捕获可以通过麦克风进行,将语音语料转化为文本信息可以通过已有的产品模块实现。
在捕获语音语料的过程中,可以进行初步降噪处理。例如,通过设置语音起点来更为针对性的捕获声音。还可以通过硬件处理,实现人声增强,以增强对清晰文字的捕获力。在初步降噪的过程中,嘈杂的、不能清晰识别杂音将会被认为是噪音。
例如,可以设置一个降噪模块,语音语料被捕获后先传递到降噪模块,降噪模块可以用来识别语音起点、实现人声增强等功能,语音语料在经过降噪模块处理后,传递到一个转化模块,将接收到的语音语料转化为文本信息,即作为后续步骤的输入文本。在此过程中,所有不能被清晰识别成文字的声音(如杂音)被过滤,能够被识别的声音则保留并转化成对应的输入文本。
S20:将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;
在将语音语料转化为文本信息时,只要能够被产品模块清晰识别,即进行文本信息转化,因此,输入文本为若干句子。在对输入文本进行相关性判定时,每条输入文本即为一个句子,以每个句子为处理对象,判断每个句子与指定场景的相关性。
具体来说,在对一个句子进行相关性判定时,基于一个指定场景下的语料库来判断一个句子是否与该指定场景相关,如果一个句子与该指定场景相关,则该句子有较大可能为用户的真实意图,则将该句子进入到对话系统进行模拟交互。
因此,在步骤S20之前,还可以包括步骤S01:构建语料库,其中语料库至少包括一与指定场景相关的专业语料库。
专业语料库需要人工事先构建。具体来说,针对对话系统使用的指定场景,梳理出不同的对话意图以及同一对话意图的不同的表达方法,构建成库。专业语料库能适应该对话系统需要应对的不同口头表达,例如,在银行营业厅场景下,需要将“办理”扩展出“开通”之类的表达,也需要将“调额”扩展出“提额”、“调整额度”、“提升额度”等表达。以便于后续的模型认识这些千变万化的用词和表达。
梳理出的语料可以直接用来训练对话系统,因此,步骤S01之后还可以包括步骤S02:使用专业语料库训练对话系统。可以理解,在使用专业语料库进行训练时,每个对话语料均对应有至少一个答案以供训练,通过这样的训练加过滤的方式,可以增强对话系统对输入文本的理解的正确度,提升对话系统的智能度。
语料库还可以包括噪音集,噪音集为人工在指定场景下采集、筛选留下的噪音,将噪音转化为对应的文本形成的文本库。在训练时,可以将专业语料库与噪音集联合使用,以实现更接近实际场景的训练。
在一个或多个实施例中,相关性模型基于TF-IDF模型进行构建。
具体来说,请参阅图2,步骤S20中,相关性模型在判断一个输入文本的相关性时,可以包括如下子步骤:
S201:利用分词工具对输入文本进行分词;
S203:计算每个分词的tf-idf值,根据所有分词的tf-idf值得到一个相关值;
S205:将相关值与预设阈值进行比对,若高于预设阈值,则认为是相关,否则认为不相关。
一个句子可以认为由多个分词组成,因而可以使用分词工具将一个句式分解成多个分词。以“我要取钱”为例,利用分词工具进行分词,可以分解得到“我”、“要”、“取钱”三个分词。
当得到的分词为短词汇时,可以直接计算每个分词的tf-idf值。在一些情况下,初次分词会得到较长的分词,此时,可以对较长的分词进行二次分词,得到若干二分词。在计算分词的tf-idf值时,先计算二分词的tf-idf值,根据二分词的tf-idf值得到对应的较长的分词的tf-idf值,然后再根据分词的tf-idf值得到句子的相关值,即可根据相关值判断该句式的相关性。在具体的实施例中,可以将所有分词的tf-idf值简单相加得到相关值。
在进行分词时,较长的词汇可以在保留之余拆分成几个较短的分词,且各分词之间可以有重复字,即所有分词的字数相加可以超过较长的词汇的字数。例如,“短信认证支付”可以被拆分成“短信,短信认证,认证支付,短信认证支付”四个二分词,将所有二分词的tf-idf值相加后,即得到长分词“短信认证支付”的tf-idf值。这样的分词方式,能更好地应对口语中长词汇多变的表达形式。
预设阈值在确定时,可以通过噪音和非噪音验证得到的值来进行确定。具体的,在噪音环境下确定一个值,然后在非噪音环境下对验证确定的值的过滤结果是否合适,从而确定预设阈值。
在分词前,可以事先构建分词词典,根据分词词典进行分词,构建的分词词典可以覆盖指定场景下的专有名词。分词工具可以采用结巴分词。
分词词典可以基于专业语料库进行构建,从而,分词工具在分词时,基于分词词典进行分词,确保分词后的分词都可以在专业语料库中找到,在分词层面增强与指定场景的关联性。
请参阅图3,在一个或多个实施例中,计算一个分词的tf-idf值时,可以包括如下步骤:
S2031:遍历专业语料库,得到分词在专业语料库中出现的次数;
S2032:根据分词在专业语料库中出现的次数,获取分词在专业语料库的重要程度;
S2033:将专业语料库根据对话意图分成多个逆文档,计算分词在逆文档中出现的逆文档数;
S2034:根据分词在逆文档中出现的逆文档数计算分词的逆文档频数;
S2035:根据分词在专业语料库中的重要程度及分词的逆文档频数计算得到tf-idf值。
分词在专业语料库中出现的次数越高,越说明其在指定场景下被频繁使用,该分词与指定场景相关的可能性极高。因而,在对输入文本的处理过程中,将分词出现的次数经过预设的计算逻辑计算后,得到一个分词在专业语料库的重要程度,可以作为其中一个相关性的评判参数。
在专业语料库中,每个对话意图可以有多种不同的表达方法,因此,每个对话意图可能对应多个句式。以一个对话意图作为一个逆文档,对专业语料库进行归类,计算分词在逆文档中出现的逆文档数,即计算分词与专业语料库中的对话意图的相关性,若与多个对话意图相关,则分词与指定场景相关的可能性极高。因此,分词与专业语料库中的对话意图的相关性可以作为另一个相关性的评判参数。
综合两个评判参数即可确认一个分词与指定场景对应领域的相关性。
在一些实施例中,可以使用如下公式计算一个分词的tf-idf值:
tft,d=log10(count(t,d)+1)
Figure BDA0002414061010000081
wt,d=tft,d×idft
其中,tft,d表示分词在专业语料库中的重要程度,count(t,d)表示分词在专业语料库中出现的次数,idft表示分词在专业语料库中的逆文档频数,N表示专业语料库中的逆文档总数,即对话意图的数量,dft表示出现分词的逆文档数,wt,d表示分词在专业语料库中的tf-idf值。
S30:根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。
将一条输入文本中输入到相关度模型后,可以得到与句式对应的相关度,根据相关度确认输入文本是否与指定场景相关,如果相关度较高,超过了预设阈值,则将输入文本输入到对话系统,若相关度低于预设阈值,则将该条输入文本认为是噪音文本,进行过滤。
通过使用构建的专业语料库进行相关性判定,在输入文本与指定场景所属领域的相关度较高时,则将输入文本输入到对话系统,而相关度较低时,则判定为噪音文本,可以实现清晰人声的噪音过滤,在软件层面实现了二次降噪,提升了对话系统应用在指定场景时的实际表现,使得对话系统与用户的交互更加模拟人与人的交互。
请参阅图4,在营业厅等多人环境下,实时环境比较嘈杂,在进行语音捕获时,可能会捕获到较多的清晰的声音,这些声音在转化成输入文本后,将不同人的声音捕获转化成的输入文本,可能存在句子不通顺的情况。在一个或多个实施例中,还可以将输入文本经过一个通顺度模型,以判断输入文本的通顺度,将通顺度与相关度文本结合使用,可以提升噪音的过滤效率。例如,先将输入文本经过通顺度模型,将不通顺的输入文本过滤掉,有利于在相关性模型中的分词。当然,也可以将相关性模型与通顺度模型并列使用,将一输入文本输入到相关性模型与通顺度模型,分别得到结果,综合二者的结果来进行噪音文本的判断和过滤。因此,步骤S10之后,还可以包括步骤:
S11:将输入文本输入到通顺度模型上,进行通顺度判定。
在步骤S30中,根据相关度确定输入文本是否为噪音文本的步骤,具体为:
结合相关度和通顺度确定输入文本是否为噪音文本。
输入文本经过通顺度模型后,若通过了通顺度判定,则认为该条输入文本是一个完整的句式,一个完整的句式即有可能为用户的意图表达。反之。若一条输入文本通顺度过低,不构成一个完整的句式,则更多的可能为噪音。因此,通过通顺度与相关性的结合,可以更好的判断一条输入文本是否属于用户在指定场景下的真实意思表达。
通顺度的判定可以基于公共语料库和专业语料库进行。公共语料库包括大量公共通用领域的偏口语化的语料。在本申请的一些实施例中,可以使用2018百科问答语料库,该公共语料库含有150万个预先过滤过的、高质量问题和答案,可以适应千变万化的口头表达。因此,在步骤S01中,构建语料库时,可以在构建专业语料库时一起构建公共语料库。
在一个或多个实施例中,通顺度模型基于N-gram模型进行构建。
请参阅图5,在一些实施例中,通顺度模型对输入文本的通顺度判定,可以包括:
S112:将一条输入文本逐字分解;
S114:根据每个字前面的N个字,计算每个字在该输入文本中所在位置的条件概率;
S116:根据每个字的条件概率计算得到该输入文本的整句分值;
S117:根据整句分值进行通顺度判定。
将一条输入文本输入到通顺度模型后,通顺度模型根据输入文本句式的顺序,将该条输入文本逐字分解。在输入文本确定的情况下,每个字前面的N个字确定。从而可依据公共语料库及专业语料库来判断每个字与该字前N个字是否连贯,从而计算其条件概率,其中,N为大于等于1的正整数。当一条输入文本中所有字的条件概率均计算后,即可计算得到该输入文本的整句分值。
例如,在具体的实施例中,N可以取2,在计算一个字的条件概率时,根据该字前面2个字来确定。
在其中一些实施例中,在计算每个字的条件概率时,可以依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数计算得到,其中N大于等于1。
在具体的实施例中,N取2时,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
Figure BDA0002414061010000101
其中,C(X)为X在公共语料库及专业语料库中出现的次数。
以输入文本为“我要取钱”为例,则“钱”字的条件概率可以为:
P(钱|要取)=C(要取钱)/C(要取)
可以理解,当N取1时,第二连贯词即为该字本身。
请参阅图6,在一个或多个实施例中,步骤S116中,整句分值的具体计算方法可以是:
S1161:将输入文本中每个字的条件概率相乘,得到该输入文本的整句分值。
计算得到每个位置的条件概率后,将所有条件概率相乘,即可得到一个句子的整句分值,例如,句子w1w2…wn-2wn-1wn的整句分值S为:
Figure BDA0002414061010000111
整句分值可以作为判断一条输入文本是否通顺的参考。例如,预设一个概率值,当整句分值小于预设概率值时,则认为通顺度不通过,大于等于预设概率值时,认为通顺度通过。
在实际使用中,自然语言的多变自然会导致一些词组在训练过程中从未出现,会导致该位置的概率为零,又由于整句分值是每个位置概率的积,一个位置为零即会导致整个句子概率为零。可以使用线性插值的方法来避免某位置的概率出现零这种情况。
具体的,在计算每个字的条件概率时,依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-2个字组成的第三连贯词,结合线性插值计算得到,其中N大于等于2。
例如,N取2时,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
Figure BDA0002414061010000112
其中,λ123=1,P(wn)为字wn在公共语料库及专业语料库中出现的概率,C(X)为X在公共语料库及专业语料库中出现的次数。
以句子“我要取钱”中“钱”字的条件概率为例:
Figure BDA0002414061010000113
也就是说,某个位置的条件概率是由λ1、λ2、λ3与第一连贯词、第二连贯词、第三连贯词结合得到,这就保证了条件概率不为零,同时也能更加充分的利用前文提供的信息。
λ1、λ2、λ3可以随机选取,以在更少的验证次数里达到更广泛的超参数覆盖面。在具体的实施例中,λ1≥0.7,以增强第一连贯词在计算条件概率时的影响。在一些实施例中,λ1>λ2>λ3,也就是说,第一连贯词对条件概率的影响大于第二连贯词对条件概率的影响,第二连贯词对条件概率的影响大于第三连贯词对条件概率的影响。
在计算输入文本的通顺度时,基于单个字来计算条件概率,并最终计算通顺度,可以使得计算的维度可控,降低计算条件概率时的计算量。
请参阅图7至图10,在将语音语料转化为文本信息后,若直接进行条件概率或整句分值的计算,可能会由于多种原因导致通顺度模型报错。因而,在计算每个字的条件概率前,通顺度模型可以对输入文本进行系列预处理操作。
请参阅图7,在其中一些实施例中,对输入文本进行系列预处理操作可以包括对数字类字符和标点符号的预处理:
S1111:对数字类字符进行归一化处理,将标点符号进行归一化处理。
数字类字符仅表示量化指标,任何数字类字符替换后均不影响句子的通顺度,例如“我要取6万块钱”与“我要取8万块钱”在通顺度上应该是一致的,可以理解,数字类字符可以包括整数、小数。
在进行语音转文本的过程中,仅能根据用户的停顿来实现断句,因而,标点符号进行归一化处理后,有助于简化句式,避免处理长句。
请参阅图8,在按照前述方法计算每个字的条件概率时,句首由于是输入文本的第一个字,前面没有字,因而无法计算条件概率,为便于计算句首的条件概率,在其中一些实施例中,通顺度模型对输入文本的预处理还可以包括对句首的处理:
S1112:在输入文本的句首前面添加N个开始标识符。
在句首前面添加N个开始的标识符后,句首的字及可与开始标识符组成连贯词,即可对句首的条件概率进行计算。
请参阅图9,在其中一些实施例中,通顺度模型对输入文本的预处理还可以包括对句尾的处理步骤:
S1113:在输入文本的尾部添加结束标识符。
在输入文本尾部添加结束标识符,一方面是作为句子结束的标识,句子是否在合适的地方停止了也是评判是否是一个合理的句子的标准,另一方面是避免等长句子概率和为1。
请参阅图10,由于汉语的复杂多变及分词的争议性,会造成维度爆炸以及参杂过多冗余信息以影响性能。同时,在实际运用中也难免遇到训练过程中不曾见过的字,导致通顺度模型出错,因此,在具体的实施例中,通顺度模型只考虑汉语通用字一级、二级通用字(具体分级标准参考2013年6月5日国务院公布的《通用规范汉字表》)。在其中一些实施例中,通顺度模型对输入文本的预处理还可以包括对罕见字的处理:
S1114:将罕见字处理成通用字符,并将通用字符作为一个正常的字处理。
在预处理过程中,将罕见字处理成通用字符,这样就可以进行通顺度计算,而不会因为通顺度模型不认识该字导致通顺度模型出错。可以理解,所谓罕见字即不在一级、二级通用字内的汉字。
将输入文本经过通顺度模型,通顺度模型计算出的整句分值可以作为通顺度的判定参考,通顺度通过时,即代表输入文本构成一个正常的句子,反之,通顺度不通过时,则代表输入文本的表达可能不规范,属于噪音文本的概率较大。
请参阅图11,在一些实施例中,计算得到输入文本的整句分值之后,还可以包括如下步骤:
S1181:获取一条输入文本中所有字的条件概率中的最大值、最小值,并计算均值和标准差;
S1183:获取输入文本的句子长度;
S1185:将最大值、最小值、均值、标准差及句子长度,输入到一个有两层全连接层的神经网络,依据神经网络的输出结果确认该条输入文本的合理性;
步骤S117中,根据整句分值进行通顺度判定,具体为:
S1171:根据整句分值及合理性进行通顺度判定。
通过通顺度模型能得到句子每个位置上的条件概率,这些信息除了能用来计算整个句子的概率(即整句分值)之外,它们的最大值、最小值、均值、标准差,以及输入文本的句子长度同样有一定的参考价值,可以用来评判输入文本构成一个句子的合理性。
请参阅图12,示例性的示出了两层全连接层的神经网络的示意图,其中一层有五个输入节点,分别为最大值、最小值,均值、标准差及句子长度的输入节点,另一层有两个输出节点,输出层进行归一化处理,例如,输出层输出的可以是二分类的softmax。在计算一条输入文本中所有字的条件概率后,将该输入文本对应的句子长度,条件概率的最大值、最小值、均值和标准差输入到输入节点,经过神经网络后,输出层输出合理或不合理的结果。因此,最大值、最小值,均值、标准差及句子长度经过神经网络后,即可以判断对应的输入文本是否构成一个合理的句子,并将最终的判定结果输出。
由此,依据每个字的条件概率可以确认得到一条输入文本的两个通顺度判定维度:整句分值及合理性。综合整句分值及合理性即可进行通顺度判断。
例如,在其中一些实施例中,当整句分值大于预设概率值,且神经网络判断为句子合理时,认为通顺度通过,否则认为不通过。
例如,在另一些实施例中,可以将整句分值与两个预设概率值比对,当整句分值高于第一预设概率值时,则无论合理性判定结果为合理还是不合理,都认为通顺度通过;当整句分值小于第二预设概率值时,则无论合理性判定结果为合理还是不合理,都认为通顺度不通过;当整句分值介于第一预设概率值和第二预设概率值之间时,若合理性通过,则通顺度通过,否则,通顺度不通过。
例如,在另一些实施例中,可以在合理性判定为合理之后,再根据整句分值确定通顺度是否通过。当句子被认为合理,且整句分值大于预设概率时,则认为通顺度通过,否则,通顺度不通过;若句子被认为不合理,则可以不进行整句分值比较,直接认为通顺度不通过。
请参阅图13,在实际的业务流程,以及人机对话中,尤其是对话系统对客户进行一定引导的对话系统中,短句子甚至只有一个词的句子往往比人与人的日常对话更加常见。但在按照每个字的条件概率相乘的方法计算通顺度时,对于长句将是有利的,而对于短句子来说,基于条件概率的神经网络更加倾向将短句子评定为不合理。其中一个原因是因为短句子的首字位置的概率值会非常低,这是所有的句子都是以两个开始标识符<s><s>开头造成的,尽管在首字位置上,更合理的首字出现的概率,仍然会比不合理的首字出现的概率更高,但是在放在整个句子中,它会拉低整个句子的分值,当句子长的时候,它的效果会逐渐被平均,句子短的时候却不能。另一个原因造成短句更容易被判断成不合理的原因是短句有时只有一个词语,而且是在一个特定的场景下才会很常见的单独作为句子出现的词语。例如“公积金”、“转账”这样的句子容易被判断成不合理导致被误过滤。
在一些实施例中,步骤S116中,计算整句分值时,可以按照以下步骤进行:
S1162:将输入文本中每个字的条件概率取对数后相加,首字的条件概率在取对数后乘以一预设系数α。
通过将每个字的条件概率取对数后相加,即可以通过添加影响系数的方式来增强某个特定位置的概率对整个句子的概率的影响。例如,在本实施例中,为了增强首字对句子概率的影响,对其乘以一个系数α使得首字的概率对整个句子的概率的影响更大,以平衡首字位置概率过低带来的影响。
例如,针对短句子的整句分值的计算公式可以是:
Figure BDA0002414061010000151
可以理解,这种旨在增强句首的影响力的处理方式不限于对短句子的处理,对于长句子的处理也同样适用。
在一些实施例中,在进行通顺度判定时,若句子长度小于预设值,则将输入文本定义为短句子,短句子不经过神经网络进行合理性判断,当整句分值大于短句预设值时,即认为通顺度通过。
例如,请参阅图14,在步骤S1183中,会获取输入文本的句子长度,可以在步骤S1183之后添加句子长度判断的步骤:
S1188:若句子长度小于等于预设值,将整句分值与短句预设值比较,进行通顺度判定。
例如,可以定义句子长度小于等于5的句子为短句子,若短句子的整句分值大于短句预设值时,则认为通顺度通过。
若句子长度大于预设值,则认为是长句,依据该输入文本的最大值、最小值、均值、标准差及句子长度,构建两层全连接层的神经网络,确认该输入文本的合理性,再结合合理性及整句分值进行通顺度判定。
可以理解,在进行短句子的通顺度判定时,可以将上述步骤结合使用,以进一步减少短句子被误过滤的概率。
通过相关性模型可以得到输入文本与指定领域的相关性,通过通顺度模型可以得到输入文本本身的通顺度,相关性模型与通顺度模型结合使用时,可以进一步提升噪音的过滤效率,同时减少真实用户语音被误过滤的概率。
在一些实施例中,可以将输入文本先经过通顺度模型,再经过相关度模型。由此,经过相关度模型时的输入文本为比较合理的句子,以利于相关度模型的分词。
在另一些实施例中,可以将相关性模型和通顺度模型并列使用,同一输入文本分别输入到相关性模型和通顺度模型,得到相关性和通顺度,然后综合相关性和通顺度确定噪音文本。
例如,步骤S30:根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统,具体包括:
不通顺且不相关的输入文本判定为噪音文本,进行过滤处理;
不通顺但相关、通顺且相关的输入文本判定为相关文本,将相关文本输入到对话系统;
通顺但不相关的输入文本判定为闲聊文本,将闲聊文本输入到对话系统。
相关文本和闲聊文本虽然都输入到对话系统,但是对话系统给出不同的回应,相关文本输入到对话系统,对话系统给出专业回应,闲聊文本输入到对话系统,对话系统进行日常聊天式交互,可以增强对话系统的灵活性,使对话系统不仅限于处理专业问题,还能进行日常的聊天交互。
在一个或多个实施例中,也可以单独根据通顺度模型来进行噪音文本的消除,将不通顺的文本作为噪音过滤,也可以实现降噪。
请参阅图15,在一个或多个实施例中,语音识别中噪音的过滤方法还可以包括白名单过滤规则。
业务场景的复杂之处在于很难简单用一个简单的模型判断是否相关和通顺。例如,在银行营业厅场景下,简单回复一个数目的情况是十分常见的,而在大多数时候,简单一个数目并不会被视为一个通顺的句子。又例如,同样在银行营业厅场景下,会有很多的理财产品,这些理财产品的命名几乎不会在其他场景下出现,而当其独自作为一句话出现时,tf-idf值因为词数过少,很难通过阈值。这可以通过在将输入文本输入到相关性模型、通顺度模型之前,增加白名单过滤来实现。因此,在将输入文本输入到相关性模型及/或通顺度模型之前,还可以包括步骤:
S101:将输入文本输入到白名单进行白名单判定,若白名单通过,则将输入文本输入到对话系统。
将输入文本经过白名单判定后,再进行相关性模型的相关性判定及/或通顺度模型的通顺度判定,可以解决理财产品的命名被过滤等问题。
上述各实施例的语音识别中噪音的过滤方法,通过构建一个指定场景下对应领域的专业语料库,并基于专业语料库对输入文本进行相关性判定、通顺度判定,通过相关性和通顺度来确定是否将输入文本输入到对话系统,能够实现清晰人声的噪音过滤。通过对文本进行二次噪音过滤,确保文本符合自然语言表达习惯以及文本符合对话系统的应用场景。噪音过滤模型可以通过降低对话系统对阈值的需求来减少敏感度的牺牲,以此达到更高的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
请参阅图16,示出了本申请一实施例的指定场景下语音识别中噪音的过滤装置10的结构示意图,过滤装置10可以包括如下部件:
语料获取部件110,用于获取语音语料;
文本转化部件120,用于将语音语料转化为文本信息,得到输入文本;
相关性模型130,用于基于一个指定场景下的专业语料库判断输入文本与指定场景的相关性;
过滤部件140,用于根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。
请参阅图17,在一些实施例中,语料获取部件110可以包括获取模块111和降噪模块113,获取模块111用于语音语料的捕获,降噪模块113用于进行初步降噪处理。在具体的实施例中,获取模块111可以是麦克风,降噪模块113可以是能够以硬件方式实现降噪的现有硬件组件,也可以是如识别语音起点的软件模块。
请参阅图18,在一些实施例中,还可以包括构建部件101,用于构建语料库。构建的语料库至少包括一与指定场景相关的专业语料库,还可以包括公共语料库和噪音集。
请参阅图18,在一些实施例中,还包括训练部件102,用于使用专业语料库训练对话系统。
在一个或多个实施例中,相关性模型130基于TF-IDF模型进行构建。
请参阅图19,在其中一些实施例中,相关性模型130可以包括如下子部件:
分词子部件131,用于利用分词工具对输入文本进行分词;
相关值计算子部件133,用于计算每个分词的tf-idf值,根据所有分词的tf-idf值得到一个相关值;
相关性判定部件135,用于将相关值与预设阈值进行比对,若高于预设阈值,则认为是相关,否则认为不相关。
请参阅图20,在其中一些实施例中,相关值计算子部件133可以包括如下组件:
第一查找组件1331,用于遍历专业语料库,得到分词在专业语料库中出现的次数;
第一计算组件1333,用于根据分词在专业语料库中出现的次数,计算得到分词在专业语料库的重要程度;
第二查找组件1335,用于将专业语料库根据对话意图分成多个逆文档,计算分词在逆文档中出现的逆文档数;
第二计算组件1337,用于根据分词在文档中出现的逆文档数计算得到分词的逆文档频数;
tf-idf值计算组件1339,用于根据分词在专业语料库中的重要程度及分词的逆文档频数计算得到tf-idf值。
请参阅图21,在一个或多个实施例中,过滤装置10还包括:
通顺度模型150,用于对输入文本进行通顺度判定。
请参阅图22,在其中一些实施例中,通顺度模型150可以包括如下子部件:
分解子部件151,用于将一条输入文本逐字分解;
条件概率计算子部件152,用于根据每个字前面的N个字,计算每个字在该输入文本中所在位置的条件概率;
整句分值计算子部件153,用于根据每个字的条件概率计算得到该输入文本的整句分值;
通顺度判断子部件154,用于根据整句分值判断通顺度。
在具体的实施例中,整句分值计算子部件153将输入文本中每个字的条件概率相乘,得到该输入文本的整句分值。
请参阅图23,在将语音语料转化为文本信息后,文本信息若直接进行条件概率或整句分值的计算,可能会由于多种原因导致通顺度模型报错。因而,通顺度模型150可以包括预处理子部件155,用于对输入文本进行系列预处理操作。
在其中一些实施例中,预处理子部件155可以包括:
数字标点处理组件1551,用于对数字类字符进行归一化处理,将标点符号进行归一化处理。
数字类字符仅表示量化指标,任何数字类字符替换后均不影响句子的通顺度,例如“我要取6万块钱”与“我要取8万块钱”在通顺度上应该是一致的,可以理解,数字类字符可以包括整数、小数。
在进行语音转文本的过程中,仅能根据用户的停顿来实现断句,因而,标点符号进行归一化处理后,有助于简化句式,避免处理长句。
在其中一些实施例中,预处理子部件155还可以包括:
句首预处理组件1553,用于在输入文本的句首前面添加N个开始标识符。
在句首前面添加N个开始的标识符后,句首的字即可与开始标识符组成连贯词,即可对句首的条件概率进行计算。
在其中一些实施例中,预处理子部件155还可以包括:
句尾预处理组件1555,用于在输入文本的尾部添加结束标识符。
在输入文本尾部添加结束标识符,一方面是作为句子结束的标识,句子是否在合适的地方停止了也是评判是否是一个合理的句子的标准,另一方面是避免等长句子概率和为1。
在其中一些实施例中,预处理子部件155还可以包括:
罕见字处理组件1557,用于将罕见字处理成通用字符,并将通用字符作为一个正常的字处理。
预处理子部件155可以包括数字标点处理组件1551、句首预处理组件1553、句尾预处理组件1555、罕见字处理组件1557中的至少一种。
请参阅图23,在一个或多个实施例中,通顺度模型150还可以包括:
第一输入值获取子部件156,用于获取一条输入文本中所有字的条件概率中的最大值、最小值,并计算均值和标准差;
句子长度获取子部件157,用于获取输入文本的句子长度;
神经网络158,用于依据最大值、最小值,均值、标准差及句子长度,确认输入文本的合理性。
通顺度判断子部件154在进行通顺度判定时,根据整句分值及合理性进行通顺度判断。
在一个或多个实施例中,整句分值计算子部件153在计算整句分值时,将输入文本中每个字的条件概率取对数后相加,首字的条件概率在取对数后乘以一预设系数α。
在一个或多个实施例中,句子长度获取子部件152还用于在句子长度小于预设值,则将输入文本定义为短句子,并将短句子的整句分值输入到通顺度判断子部件154;
通顺度判断子部件154还用于,在接收到短句子的整句分值时,将短句子的整句分值与短句预设值比较,当短句子的整句分值大于短句预设值时,判定为通顺度通过。
在一个或多个实施例中,过滤部件140在进行噪音文本过滤时,具体为:
不通顺且不相关的输入文本判定为噪音文本,进行过滤处理;
不通顺但相关、通顺且相关的输入文本判定为相关文本,将相关文本输入到对话系统;
通顺但不相关的输入文本判定为闲聊文本,将闲聊文本输入到对话系统。
请参阅图24,在一个或多个实施例中,过滤装置10还可以包括白名单160,白名单160用于对输入文本进行白名单判定,若白名单通过,则将输入文本输入到对话系统。
若白名单通过,则无需经过相关性模型、通顺度模型,若白名单不通过,则进入相关性模型130及/或通顺度模型150进行判定。
在上述实施例中,可以全部或部分地通过软件、硬件设备、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、移动硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态移动硬盘Solid State Disk(SSD))等。
作为示例,本申请还提供一种对话机器人,包括:处理器;存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行上述任一实施例所述的语音识别中噪音的过滤方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件设备的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (24)

1.一种语音识别中噪音的过滤方法,用于指定场景下的噪音文本的过滤,其特征在于,包括:
获取语音语料,并将语音语料转化为文本信息,得到输入文本;
将输入文本输入到相关性模型,相关性模型基于专业语料库判断输入文本与指定场景的相关性;
根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统。
2.根据权利要求1所述的语音识别中噪音的过滤方法,其特征在于,相关性模型基于TF-IDF模型进行构建,相关性模型在判断一条输入文本的相关性时,包括:
利用分词工具对输入文本进行分词;
计算每个分词的tf-idf值,根据所有分词的tf-idf值得到一个相关值;
将相关值与预设阈值进行比对,若高于预设阈值,则认为是相关,否则认为不相关。
3.根据权利要求2所述的语音识别中噪音的过滤方法,其特征在于,计算一个分词的tf-idf值时,包括:
遍历专业语料库,得到分词在专业语料库中出现的次数;
根据分词在专业语料库中出现的次数,计算得到分词在专业语料库的重要程度;
将专业语料库根据对话意图分成多个逆文档,获取分词在逆文档中出现的逆文档数;
根据分词在逆文档中出现的逆文档数计算分词的逆文档频数;
根据分词在专业语料库中的重要程度及分词的逆文档频数计算得到tf-idf值。
4.根据权利要求3所述的语音识别中噪音的过滤方法,其特征在于,计算一个分词的tf-idf值的公式为:
tft,d=log10(count(t,d)+1)
Figure FDA0002414057000000011
wt,d=tft,d×idft
其中,tft,d表示分词在专业语料库中的重要程度,count(t,d)表示分词在专业语料库中出现的次数,idft表示分词在专业语料库中的逆文档频数,N表示专业语料库中的逆文档总数,dft表示出现分词的逆文档数,wt,d表示分词在专业语料库中的tf-idf值。
5.根据权利要求1所述的语音识别中噪音的过滤方法,其特征在于,得到输入文本之后,还包括步骤:
将输入文本输入到通顺度模型上,进行通顺度判定;其中,通顺度的判定基于公共语料库和专业语料库进行;
所述根据相关度确定输入文本是否为噪音文本的步骤,具体为:
结合相关度和通顺度确定输入文本是否为噪音文本。
6.根据权利要求5所述的语音识别中噪音的过滤方法,其特征在于,通顺度模型对输入文本的通顺度判定,包括:
将一条输入文本逐字分解;
根据每个字前面的N个字,计算每个字在该输入文本中所在位置的条件概率;
根据每个字的条件概率计算得到该输入文本的整句分值;
根据整句分值进行通顺度判定。
7.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率时,依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数计算得到,其中N大于等于1。
8.根据权利要求7所述的语音识别中噪音的过滤方法,其特征在于,N等于2,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
Figure FDA0002414057000000021
其中C(x)为X在公共语料库及专业语料库中出现的次数。
9.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率时,依据该字与位于该字前的N个字组成的第一连贯词在公共语料库及专业语料库中出现的次数,该字与位于该字前的N-1个字组成的第二连贯词在公共语料库及专业语料库中出现的次数,以及该字与位于该字前的N-2个字组成的第三连贯词,结合线性插值计算得到,其中N大于等于2。
10.根据权利要求9所述的语音识别中噪音的过滤方法,其特征在于,N等于2,句子w1w2…wn-2wn-1wn中,字wn所在位置的条件概率的计算公式为:
Figure FDA0002414057000000031
其中,λ122=1,P(wn)为字wn在公共语料库及专业语料库中出现的概率,C(X)为X在公共语料库及专业语料库中出现的次数。
11.根据权利要求10所述的语音识别中噪音的过滤方法,其特征在于,λ1、λ2、λ3为随机选取,且λ1≥0.7,λ1>λ2>λ3
12.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,整句分值的具体计算方法为:
将输入文本中每个字的条件概率相乘,得到该输入文本的整句分值。
13.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率前,通顺度模型对输入文本进行数字类字符和标点符号的预处理:
对数字类字符进行归一化处理,将标点符号进行归一化处理。
14.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在计算每个字的条件概率前,通顺度模型对输入文本进行罕见字的预处理:
将罕见字处理成通用字符,并将通用字符作为一个正常的字处理。
15.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,计算得到输入文本的整句分值之后,还包括:
获取一条输入文本中所有字的条件概率中的最大值、最小值,并计算均值和标准差;
获取输入文本的句子长度;
依据最大值、最小值、均值、标准差及句子长度,构建一个有两层全连接层的神经网络,输出是二分类的softmax,依据输出确认该条输入文本的合理性;
所述根据整句分值进行通顺度判定的步骤,具体为:
根据整句分值及合理性进行通顺度判定。
16.根据权利要求15所述的语音识别中噪音的过滤方法,其特征在于,所述根据整句分值及合理性进行通顺度判定,具体为:
当整句分值大于预设概率值,且神经网络判断为句子合理时,认为通顺度通过,否则认为不通过;或者
将整句分值与两个预设概率值比对,当整句分值高于第一预设概率值时,则认为通顺度通过;当整句分值小于第二预设概率值时,认为通顺度不通过;当整句分值介于第一预设概率值和第二预设概率值之间时,若合理性通过,则通顺度通过,否则,通顺度不通过;或者
当句子被认为合理,且整句分值大于预设概率时,则认为通顺度通过,否则,通顺度不通过;若句子被认为不合理,则认为通顺度不通过。
17.根据权利要求6或15所述的语音识别中噪音的过滤方法,其特征在于,计算整句分值时,具体为:
将输入文本中每个字的条件概率取对数后相加,首字的条件概率在取对数后乘以一预设系数α。
18.根据权利要求15或17所述的语音识别中噪音的过滤方法,其特征在于,在进行通顺度判定时,若句子长度小于预设值,则将输入文本定义为短句子,短句子不经过神经网络进行合理性判断,当整句分值大于短句预设值时,即认为通顺度通过。
19.根据权利要求15或17所述的语音识别中噪音的过滤方法,其特征在于,获取输入文本的句子长度的步骤之后,还包括:
若句子长度小于等于预设值,将整句分值与短句预设值比较,进行通顺度判定。
20.根据权利要求5所述的语音识别中噪音的过滤方法,其特征在于,所述根据相关度确定输入文本是否为噪音文本,将噪音文本过滤,若不是噪音文本,则将输入文本输入到对话系统,的步骤,具体包括:
不通顺且不相关的输入文本判定为噪音文本,进行过滤处理;
不通顺但相关、通顺且相关的输入文本判定为相关文本,将相关文本输入到对话系统;
通顺但不相关的输入文本判定为闲聊文本,将闲聊文本输入到对话系统。
21.根据权利要求6所述的语音识别中噪音的过滤方法,其特征在于,在将输入文本输入到相关性模型及/或通顺度模型之前,还包括:
将输入文本输入到白名单进行白名单判定,若白名单通过,则将输入文本输入到对话系统。
22.一种指定场景下语音识别中噪音的过滤装置,其特征在于,包括:
语料获取部件,用于获取语音语料;
文本转化部件,用于将语音语料转化为文本信息,得到输入文本;
相关性模型,用于基于一个指定场景下的专业语料库判断输入文本与指定场景的相关性;及
过滤部件,用于根据相关度确定噪音文本,将噪音文本过滤,若不是噪音文本,则输入到对话系统。
23.一种机器可读存储介质,其上存储有计算机程序,其中所述计算机程序在由处理器执行时实现权利要求1-21任一项所述的语音识别中噪音的过滤方法。
24.一种对话机器人,其特征在于,包括:处理器;存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-21任一项所述的语音识别中噪音的过滤方法。
CN202010185581.6A 2020-03-17 2020-03-17 语音识别中噪音的过滤方法、装置、介质及对话机器人 Active CN111554293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185581.6A CN111554293B (zh) 2020-03-17 2020-03-17 语音识别中噪音的过滤方法、装置、介质及对话机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185581.6A CN111554293B (zh) 2020-03-17 2020-03-17 语音识别中噪音的过滤方法、装置、介质及对话机器人

Publications (2)

Publication Number Publication Date
CN111554293A true CN111554293A (zh) 2020-08-18
CN111554293B CN111554293B (zh) 2023-08-22

Family

ID=72001852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185581.6A Active CN111554293B (zh) 2020-03-17 2020-03-17 语音识别中噪音的过滤方法、装置、介质及对话机器人

Country Status (1)

Country Link
CN (1) CN111554293B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802470A (zh) * 2020-12-30 2021-05-14 厦门市美亚柏科信息股份有限公司 一种离线语音控制方法及终端
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法
CN113362815A (zh) * 2021-06-24 2021-09-07 达闼机器人有限公司 语音交互方法、系统、电子设备及存储介质
CN113722447A (zh) * 2021-11-03 2021-11-30 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法
CN114283794A (zh) * 2021-12-14 2022-04-05 达闼科技(北京)有限公司 噪音过滤方法、装置、电子设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727598A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 大噪音语境下的意图识别方法
CN110223689A (zh) * 2019-06-10 2019-09-10 秒针信息技术有限公司 语音信息的优化能力的确定方法及装置、存储介质
US20200019863A1 (en) * 2018-07-12 2020-01-16 International Business Machines Corporation Generative Adversarial Network Based Modeling of Text for Natural Language Processing
CN110807333A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200019863A1 (en) * 2018-07-12 2020-01-16 International Business Machines Corporation Generative Adversarial Network Based Modeling of Text for Natural Language Processing
CN109727598A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 大噪音语境下的意图识别方法
CN110223689A (zh) * 2019-06-10 2019-09-10 秒针信息技术有限公司 语音信息的优化能力的确定方法及装置、存储介质
CN110807333A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 一种语义理解模型的语义处理方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802470A (zh) * 2020-12-30 2021-05-14 厦门市美亚柏科信息股份有限公司 一种离线语音控制方法及终端
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法
CN113362815A (zh) * 2021-06-24 2021-09-07 达闼机器人有限公司 语音交互方法、系统、电子设备及存储介质
CN113722447A (zh) * 2021-11-03 2021-11-30 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法
CN113722447B (zh) * 2021-11-03 2022-02-08 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法
CN114283794A (zh) * 2021-12-14 2022-04-05 达闼科技(北京)有限公司 噪音过滤方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111554293B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111554293B (zh) 语音识别中噪音的过滤方法、装置、介质及对话机器人
US10936664B2 (en) Dialogue system and computer program therefor
Wu et al. Emotion recognition from text using semantic labels and separable mixture models
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN109767787A (zh) 情绪识别方法、设备及可读存储介质
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
KR20200119410A (ko) 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN112927679A (zh) 一种语音识别中添加标点符号的方法及语音识别装置
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN104485106B (zh) 语音识别方法、语音识别系统和语音识别设备
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111339772A (zh) 俄语文本情感分析方法、电子设备和存储介质
CN112256864A (zh) 多意图识别的方法、装置、电子设备及可读存储介质
CN115188376A (zh) 一种个性化语音交互方法及系统
CN114595744A (zh) 一种基于双模态组合多学习模型识别器的情感的识别方法及装置
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN112908296A (zh) 一种方言识别方法
JP7295828B2 (ja) 対話中の文脈の因果関係に応じた応答文を推定するプログラム、装置及び方法
CN112131343B (zh) 一种中文小说对话人物识别方法
CN117892735B (zh) 一种基于深度学习的自然语言处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 1805, tower 2, Shenye Jinyuan Building, No.112, Qingshuihe 1st Road, Qingshuihe community, Luohu District, Shenzhen City, Guangdong Province

Applicant after: SHENZHEN AOTO ELECTRONICS Co.,Ltd.

Address before: 518000 joint headquarters building, No. 63 High-tech Zone, Nanshan District Xuefu Road, Shenzhen City, Guangdong Province, 9

Applicant before: SHENZHEN AOTO ELECTRONICS Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Yong

Inventor after: Sun Feifan

Inventor after: Yao Qinyue

Inventor after: Sun Xinzhong

Inventor after: Zhao Lihong

Inventor after: Wu Hanqu

Inventor before: Sun Feifan

Inventor before: Yao Qinyue

Inventor before: Sun Xinzhong

Inventor before: Wu Hanqu