CN112037819A - 一种基于语义的语音质检方法和装置 - Google Patents

一种基于语义的语音质检方法和装置 Download PDF

Info

Publication number
CN112037819A
CN112037819A CN202010925791.4A CN202010925791A CN112037819A CN 112037819 A CN112037819 A CN 112037819A CN 202010925791 A CN202010925791 A CN 202010925791A CN 112037819 A CN112037819 A CN 112037819A
Authority
CN
China
Prior art keywords
text
preset
sliding window
quality inspection
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010925791.4A
Other languages
English (en)
Other versions
CN112037819B (zh
Inventor
王建辉
吕超
杜新凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202010925791.4A priority Critical patent/CN112037819B/zh
Publication of CN112037819A publication Critical patent/CN112037819A/zh
Application granted granted Critical
Publication of CN112037819B publication Critical patent/CN112037819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种基于语义的语音质检方法和装置,该语音质检方法包括:分别获取规则语句和待质检文本;对待质检文本进行分割,获得多个文本片段;利用滑窗算法,将多个文本片段组合成多个候选语句;从多个候选语句中筛选出至少一个目标候选语句;根据规则语句和至少一个目标候选语句,获得语音质检结果。本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。

Description

一种基于语义的语音质检方法和装置
技术领域
本申请涉及语音处理领域,具体而言,涉及一种基于语义的语音质检方法和装置。
背景技术
语音质检是指对语音内容进行检测和分析,判断语音内容是否包含指定必说内容以及是否没有指定禁说内容。通过质检客服(或者坐席)与客户沟通录音,约束其按照作业规范提供服务,保证坐席行为符合公司、行业和监管要求。
目前,现有的一种语音质检方法是通过自然语言处理(Natural LanguageProcessing)技术中语义相似度计算技术检索录音中是否存在指定内容。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:由于现有的语音质检方法需要组合并遍历录音内容中全部语义,从而引起了语音内容检索效率比较低的问题。
发明内容
本申请实施例的目的在于提供一种基于语义的语音质检方法和装置,以解决现有使用语义相似度进行语音质检方法中存在着的语音内容检索效率比较低的问题。
第一方面,本申请实施例公开了一种基于语义的语音质检方法,该语音质检方法包括:分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的;对待质检文本进行分割,获得多个文本片段;利用滑窗算法,将多个文本片段组合成多个候选语句;从多个候选语句中筛选出至少一个目标候选语句;根据规则语句和至少一个目标候选语句,获得语音质检结果。
因此,本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。
在一个可能的实施例中,文本片段包括字、词、短语和句子中的一个或其任意组合。
在一个可能的实施例中,待质检文本为携带时间信息的文本,对待质检文本进行分割,获得多个文本片段,包括:根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段。
在一个可能的实施例中,根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段,包括:根据预设符号,对待质检文本进行分割,获得至少一个待比对片段;根据时间信息,确定至少一个待比对片段中每个待比对片段对应的时间;在当前待比对片段对应的时间大于等于第一预设时间的情况下,按照第一预设时间,对当前待比对片段进行分割,获得至少两个文本片段。
在一个可能的实施例中,利用滑窗算法,将多个文本片段组合成多个候选语句,包括:获取当前滑窗内的所有文本片段的总长度;在总长度大于等于预设区间的最小值且小于预设区间的最大值的情况下,将所有文本片段组合成一个候选语句,并按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张,其中,预设区间是根据规则语句确定的。
因此,本申请实施例能够通过滑窗算法来精准地获取候选语句。
在一个可能的实施例中,语音质检方法还包括:在总长度小于预设区间的最小值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张。
在一个可能的实施例中,语音质检方法还包括:在总长度大于预设区间的最大值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的收缩方向进行收缩。
在一个可能的实施例中,预设区间的最小值为第一预设参数和字符个数的乘积值,预设区间的最大值为第二预设参数和字符个数的乘积值,字符个数为规则语句所包含字符的个数。
因此,本申请实施例中的预设区间可以根据规则语句来确定,从而能够根据实际需求来确定滑窗的预设区间。
在一个可能的实施例中,从多个候选语句中筛选出至少一个目标候选语句,包括:在当前候选语句中的任意两个相邻文本片段之间的时间间隔小于等于第二预设时间的情况下,确定当前候选语句为目标候选语句;或者,在当前候选语句对应的语速大于等于预设语速的情况下,确定当前候选语句为目标候选语句。
第二方面,本申请实施例提供了一种基于语义的语音质检装置,该语音质检装置包括:获取模块,用于分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的;分割模块,用于对待质检文本进行分割,获得多个文本片段;组合模块,用于利用滑窗算法,将多个文本片段组合成多个候选语句;筛选模块,用于从多个候选语句中筛选出至少一个目标候选语句;获取模块,还用于根据规则语句和至少一个目标候选语句,获得语音质检结果。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种基于语义的语音质检方法的流程图;
图2示出了本申请实施例提供的一种分割待质检文本的方法的示意图;
图3示出了本申请实施例提供的一种构建候选语句的方法的示意图;
图4示出了本申请实施例提供的一种基于语义的语音质检装置的结构框图;
图5是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,语音质检的第一代技术是通过人工听取录音的方式来进行的;语音质检的第二代技术是通过将录制的录音转换成文本后,从转换后的文本中搜索出与规则语句的文字相同的语句,即其本质是文字相同;语音质检的第三代技术是通过NLP技术计算两个句子之间的相似度,在相似度大于等于预设相似度的情况下,则认为两个句子相同,即其本质是语义相同。其中,前述两个句子中的一个句子可以是希望客服说的内容或者禁止客服说的内容,另外一个句子可以是录音文本中的一个句子。
虽然第三代技术可以实现语义的搜索,但是由于语义相似度的计算需要大量计算资源,其可采用穷举法来搜索与规则语句语义相同或者语义相近的语句,但其计算语义相似度的次数较多,导致了语音内容的检索效率比较低和消耗计算资源比较多的问题。
基于此,本申请实施例提供了一种基于语义的语音质检方案,通过分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的,以及对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,以及从多个候选语句中筛选出至少一个目标候选语句,最后根据规则语句和至少一个目标候选语句,获得语音质检结果。
因此,本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。
请参见图1,图1示出了本申请实施例提供的一种基于语义的语音质检方法的流程图。应理解,图1所示的语音质检方法可以由基于语义的语音质检装置执行,该语音质检装置可以与下文中的图4所示的语音质检装置对应,该语音质检装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此。如图1所示的语音质检方法包括:
步骤S110,获取规则语句和待质检语音。其中,规则语句可以是欲检索的语句。
应理解,规则语句的具体内容可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,规则语句可以是希望客服说的内容,也可以是禁止客服说的内容等。
还应理解,规则语句也可称为样本语句,也可称为待检索语句等。
还应理解,待质检语音可以是客服与客户的沟通录音,也可以是沟通语音中只包含客服说话内容但不包含客户说话内容的录音等。
对应地,下文中的待质检文本可以包含客服与客户的完整沟通内容,也可以只包含客服说话内容但不包含客户说话内容等。
步骤S120,对待质检语音进行语音识别,获得待质检文本。也就是说,待质检文本是通过对待质检语音进行语音识别后获得的。
应理解,待质检文本可以是包含有时间信息的文本,即待质检文本中的每个字都可对应有时间信息。
还应理解,时间信息的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,在待质检文本包括有“先生,您好!”的内容的情况下,“先”字对应的时间节点可以为13:14:11。也就是说,待质检文本中的每个字对应的时间信息可以为具体的时间节点。
再例如,在待质检文本包括有“先生,您好!”的内容的情况下,“先”字对应的时间戳为0,“好”字对应的时间戳为2000毫秒,即其可将待质检文本的第一个字对应的时间戳设置为0,剩余字可根据时间间隔来确定对应的时间戳。也就是说,待质检文本中的每个字对应的时间信息可以为时间戳。
还应理解,对待质检语音进行语音识别,获得待质检文本的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可利用现有的语音识别方法,对待质检语音进行语音识别,获得待质检文本。
步骤S130,对所述待质检文本进行分割,获得多个文本片段。
应理解,文本片段对应的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,文本片段可以包括字、词、短语和句子中的一个或其任意组合。
还应理解,对待质检文本进行分割,获得多个文本片段的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段,从而可从语义和停顿两个维度来进行待质检文本的分割。
还应理解,预设符号的具体符号可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,预设符号可以包括逗号,也可以包括问号,也可以包括句号,也可以包括冒号,也可以包括顿号,也可以包括分号,也可以包括引号等。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
可选地,可根据预设符号,对待质检文本进行分割,以获得至少一个文本片段。其中,在未对待质检文本分割前,至少一个文本片段中任意两个相邻的文本片段之间可存在预设符号。
以及,由于时间信息可包含有每个字对应的时间(例如,具体时间点或者时间戳),从而可确定每个文本片段中所有字对应的总时间,即可根据时间信息,确定至少一个待比对片段中每个待比对片段对应的时间。
以及,还可比较当前待比对片段对应的时间和第一预设时间的大小。若当前待比对片段对应的时间大于等于第一预设时间,则可按照第一预设时间,对当前待比对片段进行分割,即可以第一个预设时间为周期依次对当前待比对片段进行分割,从而可获得至少两个文本片段,且至少两个文本片段中每个文本片段对应的时间均小于或者等于第一预设时间;若当前待比对片段小于第一预设时间,则可将当前待比对片段作为文本片段。
此外,可按照上述对当前待比对片段的处理过程,依次对每个待比对片段执行上述操作。
例如,请参见图2,图2示出了本申请实施例提供的一种分割待质检文本的方法的示意图。如图2所示,可按照上述方法将待质检文本分割为n个文本片段(即文本片段1至文本片段n)。其中,n为正整数。
应理解,第一预设时间对应的具体时间可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,第一预设时间可以为2秒,也可以为4秒等。
这里需要说明的是,当前待比对片段对应的时间和第一预设时间均是时间段。
可选地,可将第三预设时间作为周期,对待质检文本进行分割,以获得多个待分割字段。其中,多个待分割字段中除最后一个待分割字段外的其他待分割字段对应的时间均为第三预设时间,最后一个待分割字段对应的时间小于或者等于第三预设时间。
以及,还可根据预设符号,依次对每个待分割字段进行分割,以获得至少一个文本片段。其中,在未对待分割字段分割前,每个待分割字段分割得到的两个相邻的文本片段之间存在预设符号。
应理解,第三预设时间对应的时间可根据实际需求来进行设置,本申请实施例并不局限于此。
这里需要说明的是,待分割字段对应的时间和第三预设时间均是时间段。
步骤S140,利用滑窗算法,将多个文本片段组合成多个候选语句。
应理解,利用滑窗算法,将多个文本片段组合成多个候选语句的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,如图3所示,图3示出了本申请实施例提供的一种构建候选语句的方法的示意图。如图3所示,其可以一个文本片段为预设步长,从左至右(即从文本片段1至文本片段n)构建滑窗(或者称为动态滑窗),且该滑窗为矩形框。具体地:
长度为L1的文本片段1进入构造的滑窗,此时L1小于滑窗对应的预设区间的最小值,则滑窗的左侧不动,滑窗的右侧扩大包含文本片段2,即滑窗的扩张方向为右侧方向。
也就是说,获取当前滑窗内的所有文本片段的总长度,在总长度小于预设区间的最小值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的扩张方向(或者滑窗扩张方向)进行扩张。其中,预设步长的具体步长也可根据实际需求进行调整。
应理解,滑窗对应的预设区间为[a*L,b*L]。
其中,a为第一预设参数,b为第二预设参数,L为字符个数,且字符个数为规则语句所包含字符的个数(例如,在规则语句所包含字符的个数为11的情况下,则L为11),a*L为预设区间的最小值,b*L为预设区间的最大值。
还应理解,字符个数还可称为语句长度。
也就是说,滑窗对应的预设区间是根据规则语句来设置的,从而在规则语句不同的情况下,其对应的预设区间也可以是不同的。
应理解,a的具体值可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,a的取值范围可以是从0到1。
还应理解,b的具体值也可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,b的取值范围可以是从1到99。
随后,在滑窗包含文本片段1和文本片段2且文本片段2的长度为L2的情况下,文本片段1和文本片段2的长度和为L1+L2,此时L1+L2大于等于预设区间的最小值且小于预设区间的最大值,则获得第一候选语句S1,且该第一候选语句S1是由文本片段1和文本片段2构成的。
也就是说,在当前滑窗内的所有文本片段的总长度大于等于预设区间的最小值且小于预设区间的最大值的情况下,可将当前滑窗内的所有文本片段组合成一个候选语句。
随后,滑窗的左侧不动,滑窗的右侧扩大包含文本片段3。
也就是说,在获得一个候选语句后,可继续按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张。
随后,在滑窗包含文本片段1、文本片段2和文本片段3且文本片段3的长度为L3的情况下,文本片段1、文本片段2和文本片段3的长度和为L1+L2+L3,此时L1+L2+L3大于等于预设区间的最小值且小于预设区间的最大值,则获得第二候选语句S2,且该第二候选语句S2是由文本片段1、文本片段2和文本片段3构成的。
随后,滑窗的左侧不动,滑窗的右侧扩大包含文本片段4。
随后,在滑窗包含文本片段1、文本片段2、文本片段3和文本片段4且文本片段4的长度为L4的情况下,文本片段1、文本片段2、文本片段3和文本片段4的长度和为L1+L2+L3+L4,此时L1+L2+L3+L4大于预设区间的最大值,则可进行状态转换。
随后,滑窗的右侧不动,滑窗的左侧前进一个文本片段,即滑窗的收缩方向为左侧方向,此时到达文本片段2的位置。
也就是说,在当前滑窗内的所有文本片段的总长度大于预设区间的最大值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的收缩方向(或者滑窗收缩方向)进行收缩。
随后,在文本片段2、文本片段3和文本片段4的长度和为L2+L3+L4的情况下,此时L2+L3+L4大于等于预设区间的最小值且小于预设区间的最大值,则获得第三候选语句S3,且该第三候选语句S3是由文本片段2、文本片段3和文本片段4构成的。
随后,滑窗的右侧不动,滑窗的左侧前进一个文本片段,此时到达文本片段3的位置。
随后,在文本片段3和文本片段4的长度和为L3+L4的情况下,此时L3+L4小于预设区间的最小值,则可进行状态转换。
随后,滑窗的左侧不动,滑窗的右侧向滑窗的扩张方向前进一个步长,这里可参见上述文本片段1进入滑窗的相关描述。
随后,可按照上述步骤,对剩余文本片段依次进行处理。
这里需要说明的是,对文本片段依次进行处理的原则为滑窗的右侧向右侧扩张,直到滑窗的长度大于预设区间的最大值停止,转为左侧右移收缩;滑窗的左侧向右收缩,直到滑窗的长度小于预设区间的最小值停止,转为右侧右移扩张。
此外,还需要说明的是,图3仅是示意性的,其还可根据实际需求来设置候选语句的构建场景,本申请实施例并不局限于此。
步骤S150,从多个候选语句中筛选出至少一个目标候选语句。
应理解,从多个候选语句中筛选出至少一个目标候选语句的具体方法可根据实际需求来进行设置,本申请实施例并不局限于此。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
可选地,在当前候选语句中的任意两个相邻文本片段之间的时间间隔小于等于第二预设时间的情况下,确定当前候选语句为目标候选语句;在当前候选语句中的任意两个相邻文本片段之间的时间间隔大于第二预设时间的情况下,则可剔除当前候选语句,即当前候选语句并非为目标候选语句。
应理解,第二预设时间对应的具体时间可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,第二预设时间可为6秒。
可选地,在当前候选语句对应的语速大于等于预设语速的情况下,确定所述当前候选语句为所述目标候选语句。其中,语速为通过当前候选语句的字数除以对应时间获得的商值。
应理解,预设语速的具体语速可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,预设语速可为3字/秒。
另外,还需要说明的是,在本申请实施例是在以文本片段为单位进行组合且具有m个文本片段的情况下,则可获得m*(m+1)/2个候选语句,此时计算的时间复杂度为二次方。随后,可通过上述筛选的方式来将候选语句的数量大大减小,即将候选语句中语句长度过长的候选语句和语句长度过短的候选语句进行删除,保留了语句长度适中的候选语句作为目标候选语句,从而可将内容检索的时间复杂度减小为一次方,进而减少了语义相似度的计算次数,提升了语音内容的检索效率。其中,m为正整数。
步骤S160,根据规则语句和至少一个目标候选语句,获得语音质检结果。
应理解,根据规则语句和至少一个目标候选语句,获得语音质检结果的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,计算当前目标候选语句和规则语句的相似度,以及在相似度大于预设相似度的情况下,确定当前候选语句为与规则语句相匹配的内容。从而可按照上述步骤,依次计算每个目标候选语句和规则语句之间的相似度,即全部计算每个目标候选语句对应的相似度,并将相似度大于预设相似度的所有候选语句作为语音质检结果。
再例如,依次计算每个目标候选语句和规则语句的相似度,以及在第一次获得一个相似度大于预设相似度的情况下,则可停止相似度的计算,并输出存在与规则语句相匹配的内容的语音质检结果。
因此,本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。
应理解,上述基于语义的语音质检方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,变形之后的方案也处于本申请实施例的保护范围内。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
请参见图4,图4示出了本申请实施例提供的一种基于语义的语音质检装置400的结构框图,应理解,该语音质检装置400能够执行上述方法实施例的各个步骤,该语音质检装置400具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该语音质检装置400包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在语音质检装置400的操作系统(operating system,OS)中的软件功能模块。具体地,该语音质检装置400包括:
获取模块410,用于分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的;分割模块420,用于对待质检文本进行分割,获得多个文本片段;组合模块430,用于利用滑窗算法,将多个文本片段组合成多个候选语句;筛选模块440,用于从多个候选语句中筛选出至少一个目标候选语句;获取模块450,还用于根据规则语句和至少一个目标候选语句,获得语音质检结果。
在一个可能的实施例中,文本片段包括字、词、短语和句子中的一个或其任意组合。
在一个可能的实施例中,待质检文本为携带时间信息的文本,分割模块420,用于根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段。
在一个可能的实施例中,分割模块420,用于:根据预设符号,对待质检文本进行分割,获得至少一个待比对片段;根据时间信息,确定至少一个待比对片段中每个待比对片段对应的时间;在当前待比对片段对应的时间大于等于第一预设时间的情况下,按照第一预设时间,对当前待比对片段进行分割,获得至少两个文本片段。
在一个可能的实施例中,组合模块430,用于:获取当前滑窗内的所有文本片段的总长度;在总长度大于等于预设区间的最小值且小于预设区间的最大值的情况下,将所有文本片段组合成一个候选语句,并按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张,其中,预设区间是根据规则语句确定的。
在一个可能的实施例中,组合模块430,用于:在总长度小于预设区间的最小值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张。
在一个可能的实施例中,组合模块430,用于:在总长度大于预设区间的最大值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的收缩方向进行收缩。
在一个可能的实施例中,预设区间的最小值为第一预设参数和字符个数的乘积值,预设区间的最大值为第二预设参数和字符个数的乘积值,字符个数为规则语句所包含字符的个数。
在一个可能的实施例中,筛选模块440,用于:在当前候选语句中的任意两个相邻文本片段之间的时间间隔小于等于第二预设时间的情况下,确定当前候选语句为目标候选语句;或者,在当前候选语句对应的语速大于等于预设语速的情况下,确定当前候选语句为目标候选语句。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请实施例还提供一种电子设备,请参见图5,图5是本申请实施例提供的一种电子设备500的结构框图。电子设备500可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中的通信接口520用于与其他设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。上述的处理器510可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备500可以执行上述方法实施例中的各个步骤。
电子设备500还可以包括存储控制器、输入输出单元、音频单元、显示单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块,例如电子设备500包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图5所示的结构仅为示意,所述电子设备500还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于语义的语音质检方法,其特征在于,包括:
分别获取规则语句和待质检文本,其中,所述待质检文本是通过对待质检语音进行语音识别后获得的;
对所述待质检文本进行分割,获得多个文本片段;
利用滑窗算法,将所述多个文本片段组合成多个候选语句;
从所述多个候选语句中筛选出至少一个目标候选语句;
根据所述规则语句和所述至少一个目标候选语句,获得语音质检结果。
2.根据权利要求1所述的语音质检方法,其特征在于,所述文本片段包括字、词、短语和句子中的一个或其任意组合。
3.根据权利要求1或2所述的语音质检方法,其特征在于,所述待质检文本为携带时间信息的文本,所述对所述待质检文本进行分割,获得多个文本片段,包括:
根据预设符号和所述时间信息,对所述待质检文本进行分割,获得所述多个文本片段。
4.根据权利要求3所述的语音质检方法,其特征在于,所述根据预设符号和所述时间信息,对所述待质检文本进行分割,获得所述多个文本片段,包括:
根据所述预设符号,对所述待质检文本进行分割,获得至少一个待比对片段;
根据所述时间信息,确定所述至少一个待比对片段中每个待比对片段对应的时间;
在当前待比对片段对应的时间大于等于第一预设时间的情况下,按照所述第一预设时间,对所述当前待比对片段进行分割,获得至少两个文本片段。
5.根据权利要求1所述的语音质检方法,其特征在于,所述利用滑窗算法,将所述多个文本片段组合成多个候选语句,包括:
获取当前滑窗内的所有文本片段的总长度;
在所述总长度大于等于预设区间的最小值且小于所述预设区间的最大值的情况下,将所述所有文本片段组合成一个所述候选语句,并按照预设步长,将所述当前滑窗沿着所述当前滑窗的扩张方向进行扩张,其中,所述预设区间是根据所述规则语句确定的。
6.根据权利要求5所述的语音质检方法,其特征在于,所述语音质检方法还包括:
在所述总长度小于所述预设区间的最小值的情况下,按照所述预设步长,将所述当前滑窗沿着所述当前滑窗的扩张方向进行扩张。
7.根据权利要求5所述的语音质检方法,其特征在于,所述语音质检方法还包括:
在所述总长度大于所述预设区间的最大值的情况下,按照所述预设步长,将所述当前滑窗沿着所述当前滑窗的收缩方向进行收缩。
8.根据权利要求5所述的语音质检方法,其特征在于,所述预设区间的最小值为第一预设参数和字符个数的乘积值,所述预设区间的最大值为第二预设参数和所述字符个数的乘积值,所述字符个数为所述规则语句所包含字符的个数。
9.根据权利要求1所述的语音质检方法,其特征在于,所述从所述多个候选语句中筛选出至少一个目标候选语句,包括:
在当前候选语句中的任意两个相邻文本片段之间的时间间隔小于等于第二预设时间的情况下,确定所述当前候选语句为所述目标候选语句;或者,
在当前候选语句对应的语速大于等于预设语速的情况下,确定所述当前候选语句为所述目标候选语句。
10.一种基于语义的语音质检装置,其特征在于,包括:
获取模块,用于分别获取规则语句和待质检文本,其中,所述待质检文本是通过对待质检语音进行语音识别后获得的;
分割模块,用于对所述待质检文本进行分割,获得多个文本片段;
组合模块,用于利用滑窗算法,将所述多个文本片段组合成多个候选语句;
筛选模块,用于从所述多个候选语句中筛选出至少一个目标候选语句;
获取模块,还用于根据所述规则语句和所述至少一个目标候选语句,获得语音质检结果。
CN202010925791.4A 2020-09-03 2020-09-03 一种基于语义的语音质检方法和装置 Active CN112037819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010925791.4A CN112037819B (zh) 2020-09-03 2020-09-03 一种基于语义的语音质检方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010925791.4A CN112037819B (zh) 2020-09-03 2020-09-03 一种基于语义的语音质检方法和装置

Publications (2)

Publication Number Publication Date
CN112037819A true CN112037819A (zh) 2020-12-04
CN112037819B CN112037819B (zh) 2024-06-28

Family

ID=73590801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010925791.4A Active CN112037819B (zh) 2020-09-03 2020-09-03 一种基于语义的语音质检方法和装置

Country Status (1)

Country Link
CN (1) CN112037819B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699689A (zh) * 2021-01-05 2021-04-23 虎博网络技术(上海)有限公司 音频切分方法、装置和电子设备
CN113035236A (zh) * 2021-05-24 2021-06-25 北京爱数智慧科技有限公司 语音合成数据的质检方法以及装置
CN113642334A (zh) * 2021-08-11 2021-11-12 科大讯飞股份有限公司 意图识别方法、装置、电子设备和存储介质
CN113806505A (zh) * 2021-09-09 2021-12-17 科大讯飞股份有限公司 要素比对方法、装置、电子设备和存储介质
CN114267340A (zh) * 2021-12-27 2022-04-01 科大讯飞股份有限公司 一种4s店服务质量评估方法、装置、存储介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN110046342A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 一种文本质量检测方法
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110334241A (zh) * 2019-07-10 2019-10-15 深圳前海微众银行股份有限公司 客服录音的质检方法、装置、设备及计算机可读存储介质
WO2019210557A1 (zh) * 2018-05-03 2019-11-07 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN110633912A (zh) * 2019-09-20 2019-12-31 苏州思必驰信息科技有限公司 监测服务人员服务质量的方法及系统
CN110728996A (zh) * 2019-10-24 2020-01-24 北京九狐时代智能科技有限公司 一种实时语音质检方法、装置、设备及计算机存储介质
CN110839112A (zh) * 2019-11-18 2020-02-25 广东电网有限责任公司佛山供电局 一种问题语音的检测方法和装置
CN111368130A (zh) * 2020-02-26 2020-07-03 深圳前海微众银行股份有限公司 客服录音的质检方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019210557A1 (zh) * 2018-05-03 2019-11-07 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN110046342A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 一种文本质量检测方法
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110334241A (zh) * 2019-07-10 2019-10-15 深圳前海微众银行股份有限公司 客服录音的质检方法、装置、设备及计算机可读存储介质
CN110633912A (zh) * 2019-09-20 2019-12-31 苏州思必驰信息科技有限公司 监测服务人员服务质量的方法及系统
CN110728996A (zh) * 2019-10-24 2020-01-24 北京九狐时代智能科技有限公司 一种实时语音质检方法、装置、设备及计算机存储介质
CN110839112A (zh) * 2019-11-18 2020-02-25 广东电网有限责任公司佛山供电局 一种问题语音的检测方法和装置
CN111368130A (zh) * 2020-02-26 2020-07-03 深圳前海微众银行股份有限公司 客服录音的质检方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LITANYUAN: "滑动窗口算法", Retrieved from the Internet <URL:https://blog.csdn.net/lizhichao410/article/details/106477998> *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699689A (zh) * 2021-01-05 2021-04-23 虎博网络技术(上海)有限公司 音频切分方法、装置和电子设备
CN113035236A (zh) * 2021-05-24 2021-06-25 北京爱数智慧科技有限公司 语音合成数据的质检方法以及装置
CN113035236B (zh) * 2021-05-24 2021-08-27 北京爱数智慧科技有限公司 语音合成数据的质检方法以及装置
CN113642334A (zh) * 2021-08-11 2021-11-12 科大讯飞股份有限公司 意图识别方法、装置、电子设备和存储介质
CN113642334B (zh) * 2021-08-11 2023-12-05 科大讯飞股份有限公司 意图识别方法、装置、电子设备和存储介质
CN113806505A (zh) * 2021-09-09 2021-12-17 科大讯飞股份有限公司 要素比对方法、装置、电子设备和存储介质
CN113806505B (zh) * 2021-09-09 2024-04-16 科大讯飞股份有限公司 要素比对方法、装置、电子设备和存储介质
CN114267340A (zh) * 2021-12-27 2022-04-01 科大讯飞股份有限公司 一种4s店服务质量评估方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN112037819B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
CN112037819B (zh) 一种基于语义的语音质检方法和装置
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
US20100125447A1 (en) Language identification for documents containing multiple languages
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
JP2012529108A (ja) ライティングシステム及び言語の検出
CN107992484B (zh) 一种评测ocr系统的性能的方法、设备及存储介质
JP6230725B2 (ja) 因果関係分析装置、及び因果関係分析方法
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN112069796B (zh) 一种语音质检方法、装置,电子设备及存储介质
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN112069797B (zh) 一种基于语义的语音质检方法和装置
WO2019015133A1 (zh) 一种输入法的词库管理方法及装置
CN114241471B (zh) 视频文本识别方法、装置、电子设备及可读存储介质
US20150039290A1 (en) Knowledge-rich automatic term disambiguation
CN112183052A (zh) 一种文档重复度检测方法、装置、设备和介质
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN111046627B (zh) 一种中文文字显示方法及系统
Karimi et al. Evaluation methods for statistically dependent text
CN108021595B (zh) 检验知识库三元组的方法及装置
US11341188B2 (en) Expert stance classification using computerized text analytics
US10387472B2 (en) Expert stance classification using computerized text analytics
US9286349B2 (en) Dynamic search system
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
Rofiq Indonesian news extractive text summarization using latent semantic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant