CN111797228A - 一种语音信息提取方法及装置 - Google Patents

一种语音信息提取方法及装置 Download PDF

Info

Publication number
CN111797228A
CN111797228A CN202010469029.XA CN202010469029A CN111797228A CN 111797228 A CN111797228 A CN 111797228A CN 202010469029 A CN202010469029 A CN 202010469029A CN 111797228 A CN111797228 A CN 111797228A
Authority
CN
China
Prior art keywords
speech
theme
iterative training
vocabulary
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010469029.XA
Other languages
English (en)
Inventor
郭流芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202010469029.XA priority Critical patent/CN111797228A/zh
Publication of CN111797228A publication Critical patent/CN111797228A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语音信息提取方法及装置,该方法包括:训练步骤:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤:利用得到的各个正则表达式在待处理语音文档中进行匹配,若匹配成功,则待处理文档中包含与相应正则表达式对应的主题空间对应的主题类别。本发明实施例提供的语音信息提取方法及装置,提高了感兴趣信息提取的准确率、快速性以及泛化能力。

Description

一种语音信息提取方法及装置
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音信息提取方法及装置。
背景技术
语音是信息的重要载体,现有技术中具有语音信息提取的需求。在现有技术中,为了验证客服人员的工作是否到位,常常需要去判断客服人员在与顾客对话中是否提到了某些预设的对话内容。通常,对这类信息的判断通过听取通话录音来进行,但是,听取通话录音的方式需要由专人听取全部录音才能做出判断,由此造成人力和时间成本的极大浪费。
为解决上述从语音中提取信息的问题,现有的一种VIE(voice informationextract,语音信息提取)方法,是先把语音转化成文本,然后,利用业务关键字进行匹配。
然而,在语音转换成文本的过程中,语音转换成的文本往往并不是语音所表达的意思,造成文本转换错误。比如,由于同音字识别错误造成文本转换错误;因为语音通话的背景太嘈杂,导致语音转文本的时候,没办法转化到正确的文本信息;因为说话的口音问题,导致转化时找不到准确的对应词汇,从而导致最终的文本和语音要表达的意思完全不同,等等。
由于语音转换成的文本出现上述错误,因此导致后续利用业务关键字进行匹配时,语音信息提取结果的可信度较差。并且,由于业务关键字无法穷举,因此导致语音信息提取的泛化能力较差。
发明内容
为解决现有技术中的问题,本发明实施例提供一种语音信息提取方法及装置。
第一方面,本发明实施例提供一种语音信息提取方法,包括:训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
进一步地,所述获取与不同主题类别对应的初始化词汇点对应的主题空间,包括:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。
进一步地,所述将各个所述主题空间中的词汇用拼音和/或文字进行表示,包括:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。
进一步地,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。
进一步地,在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。
进一步地,所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理,包括:提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。
进一步地,在所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理之后,所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本利用TF-IDF算法进行处理,获取所述迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对所述迭代训练样本进行表达。
进一步地,在所述后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的所述停用词进行过滤后得到的迭代训练样本。
进一步地,所述方法还包括:从第二次迭代开始,利用得到的所述正则表达式在测试集中进行验证,当达到预设正确率时迭代终止。
进一步地,所述预设算法包括word2vec算法。
第二方面,本发明实施例提供一种语音信息提取装置,包括:训练模块,用于:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测模块,用于:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的语音信息提取方法及装置,通过在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;然后再利用得到的各个正则表达式在待处理语音文档中进行匹配,从而得到待处理文档中是否包含与相应正则表达式对应的主题空间对应的主题类别的信息,提高了感兴趣信息提取的准确率、快速性以及泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的语音信息提取方法流程图;
图2是本发明另一实施例提供的语音信息提取方法流程图;
图3是本发明一实施例提供的语音信息提取方法中的词性临接关系组合示例;
图4是本发明一实施例提供的语音信息提取方法中的基于word2vec处理后的聚类结果示意图;
图5是本发明一实施例提供的语音信息提取装置的结构示意图;
图6是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明一实施例提供的语音信息提取方法流程图。如图1所示,所述方法包括:
步骤101、训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式。
语音信息提取装置的训练模块通过执行训练步骤得到用于进行语音信息提取的与各个预设的主题类别对应的正则表达式。在训练时,首先根据不同的主题类别设置初始化词汇点,可以通过大量已有语音文档数据的观察积累初始化词汇点。如对于房屋面积主题类别,初始化词汇点包括75平、三室等。
根据预设的与不同主题类别对应的初始化词汇点,在多次迭代训练过程中,通过预设方法获取与不同主题类别对应的初始化词汇点对应的主题空间。主题空间是一个词云集合,这个词云集合基于与不同主题类别对应的初始化词汇点聚集而成。通过这种聚合可以将相同词义的词汇聚集到一起,那么可以最大限度地提取用于表征相应主题类别的词汇,因此提高了语音信息提取的泛化能力。
得到与各类所述初始化词汇点对应的主题空间之后,将各个所述主题空间中的词汇根据不同的特点用拼音和/或文字进行表示。比如,有的词汇在文字识别时会发生一致性错误,即每次出现类似的读音,都会错误的识别为同样的内容。对于这样的词,可以将其文字全部转换为拼音,利用拼音来代表该词汇在语义空间的表达。文字识别无误的词可以用文字来进行表达。
在得到由拼音和/或文字表达的各个主题空间后,将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式。由于语音数据的量非常庞大,单纯根据聚类的结果尚无法进行分类及信息提取,需要通过将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式以进一步提取特征,从而实现语音信息的准确、快速提取。
步骤102、预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
在得到与各个所述主题空间对应的正则表达式后,各个正则表达式可以作为相应主题空间的分类器使用。语音信息提取装置的预测模块利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。由此,便可获取语音中是否包含感兴趣的信息。
本发明实施例通过在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;然后再利用得到的各个正则表达式在待处理语音文档中进行匹配,从而得到待处理文档中是否包含与相应正则表达式对应的主题空间对应的主题类别的信息,提高了感兴趣信息提取的准确率、快速性以及泛化能力。
进一步地,基于上述实施例,所述获取与不同主题类别对应的初始化词汇点对应的主题空间,包括:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。
根据预设的与不同主题类别对应的初始化词汇点,在多次迭代训练过程中,将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与各类所述初始化词汇点对应的主题空间;所述预设算法可以采用包括word2vec算法在内的能够转换为词向量并进行聚类的算法;以word2vec算法为例,在进行转换以后,词义相似的词条,会出现一个聚集现象,如*单元、单元、*厅之类的词汇聚集到一起。由于通过word2vec等算法按照词义进行了一个聚合,那么只要给定一个起始点,在该点一个阈值范围内的词汇,则认为是与该点词汇有极大相关性的一个表述,就能得到与该起始点相关的一个小的词云集合。这个词云集合可以称为主题空间,分别基于与不同主题类别对应的初始化词汇点聚集而成。通过这种聚合可以将相同词义的词汇聚集到一起,那么可以最大限度地提取用于表征相应主题类别的词汇,因此提高了语音信息提取的泛化能力。
在上述实施例的基础上,本发明实施例通过将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间,实现了主题空间的便利化获取。
进一步地,基于上述实施例,所述将各个所述主题空间中的词汇用拼音和/或文字进行表示,包括:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。
将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与各类所述初始化词汇点对应的主题空间之后,将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。对于各个主题空间的某些文字全部转化为拼音是因为对于某些文字在识别的时候会发生错误,而在观察整体数据后发现,这些数据是具有一致性的,即每次出现类似的读音,都会错误的识别为同样的内容。对于这样的词,就将其文字全部转换为拼音,利用拼音来代表该词汇在语义空间的表达。对于其余的词汇,仍利用文字进行表达。如此,可以极大地提高语音信息提取的正确率和可信度。
在上述实施例的基础上,本发明实施例通过将各个主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的词汇用相应拼音关键词表示,匹配不成功的词汇恢复成文字表示,由此极大地提高语音信息提取的正确率和可信度。
进一步地,基于上述实施例,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。
迭代训练的过程中,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档,从而实现逐步优化。其中,上一次迭代对应的所述迭代训练样本中的相应词汇指的是上一次迭代得到的所述正则表达式对应的词汇,一个主题空间对应于至少一个正则表达式,每个正则表达式对应一个主题空间,而主题空间包含的词汇即相应正则表达式对应的词汇。本发明实施例中所述词汇包括单字。
在上述实施例的基础上,本发明实施例通过在后续迭代时,根据上一次迭代得到的正则表达式对上一次迭代对应的迭代训练样本中的相应词汇进行替换,实现了逐步优化的迭代训练过程。
进一步地,基于上述实施例,在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。
本发明实施例通过以词性作为规则的勾连点,得到有实意的Bi-Grams,Bi-Grams也可以称为Bi-Phrase,代表双词,通过将分词得到的两个词进行拼合,形成新的双词分词。通过大量抽样数据的观察得到词性之间的规律化组合。词性临接关系表中的词性临接关系组合,是根据感兴趣点,在研究了大量得到的分词之后,对各种单独分词进行关联后,使其单独表示时不能有明确含义的分词,变成组合分词后,基本能够确定其含义的组合。比如,调到75属于vm组合(动词+数词组合),vm组合“调到75”与独立的“调到”和独立的“75”不能表示明确含义相比,具有了明确含义,有利于word2vec等算法进行分析及聚类处理,可以提取到更多的、更准确的信息。
在上述实施例的基础上,本发明实施例通过将迭代训练样本进行词性标注,并根据预设的词性临接关系表对迭代训练样本进行进一步分词处理,可以提取到更多的、更准确的信息,从而提高了语音信息提取的全面性和准确性。
进一步地,基于上述实施例,所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理,包括:提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。
在将迭代训练样本分词后,进行词性标注,从而得到词性标注信息。所述词性标注信息包括各个分词的词性。提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。
比如滑动窗口为3,迭代训练样本排列于前面的几个词性依次为vuumvun,则滑动窗口先覆盖vuv,并依次将vu和uv与词性临接关系表中包含的所述词性临接关系组合进行匹配,若词性临接关系表中包含词性临接关系组合vu和uv,则vu和uv均匹配成功,则根据优先级别进行分词,比如若vu的优先级别大于uv,则保留vu组合,放弃uv组合,即这段词性对应的文本中,u对应的词汇和前面v对应的词汇进行组合,形成新词。若某个相邻词性的组合无法匹配成功,则直接放弃。处理完这个滑动窗口后,滑动窗口覆盖uvm,并进行类似处理;以此类推,直至滑动窗口覆盖全部的迭代训练样本对应的词性,最终处理完全部的数据。
在上述实施例的基础上,本发明实施例通过提取迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与词性临接关系表中包含的词性临接关系组合进行匹配,根据匹配成功的词性临接关系组合的优先级由高到低的顺序将相邻的两个词性相邻词性对应的文本组合为一个词,提高了分词划分的准确性,从而进一步提高了语音信息提取的准确性。
进一步地,基于上述实施例,在所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理之后,所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:将所述迭代训练样本利用TF-IDF算法进行处理,获取所述迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对所述迭代训练样本进行表达。
TF-IDF算法的特点是:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料中出现的频率成反比下降,这个重要性可以通过权重的高低进行表示。权重越高表示越重要。利用这个方法,把整个词库中的词做一个清洗,用去除停用词(对语义分析用处不大的词)后的词汇来表示、表达语料(迭代训练数据、语音文档样本)。
通过TF-IDF算法进行处理后,提高了后续word2vec算法进行向量表达和聚类的准确率,并且可以使得处理的词向量数量减少,加快计算速度。
在上述实施例的基础上,本发明实施例通过将迭代训练样本利用TF-IDF算法进行处理,获取迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对迭代训练样本进行表达,提高了语音信息提取的准确度和效率。
进一步地,基于上述实施例,在所述后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的所述停用词进行过滤后得到的迭代训练样本。
如前所述,在第一次迭代处理后的后续迭代过程中,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。进一步地,由于每次迭代过程均可通过TF-IDF算法得到停用词,因此,为进一步提高语音文档的有效性、去除噪音,可以利用上一次迭代得到的所述停用词对所述进行替换得到的语音文档进一步进行过滤,再对得到的语音文档进行后续处理。
在上述实施例的基础上,本发明实施例通过在后续迭代时,迭代训练样本为根据上一次迭代得到的正则表达式对上一次迭代对应的迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的停用词进行过滤后得到的语音文档,进一步提高了语音信息提取的准确度和效率。
进一步地,基于上述实施例,从第二次迭代开始,利用得到的所述正则表达式在测试集中进行验证,当达到预设正确率时迭代终止。
从第二次迭代开始,利用得到的所述正则表达式在测试集中进行验证,当达到预设正确率时迭代终止,从而得到用于语音信息提取的、与各个正则表达式对应的分类器。经过一定数量的训练,分类器能够到达指定的正确率以后,就代表获取到了满足性能指标的分类器。在后续的应用过程中,将BiGrams操作后的文本输入到分类器中,即可识别出对话中感兴趣的话题内容。比如本发明实施例中,目标是要审核经纪人在进行房源维护时,有没有和业主提到必须要确认的几个因素:价格、面积、地址、出售意愿,因此按照这个要求进行训练的分类器,即可识别出对话中是否包含上述必须要有的因素。当然,对于别的目的,只要对应修改BiGrams的训练关键词(根据应用场景修改词性临接关系组合),就可以按照本发明实施例提供的方法对语音数据进行有针对性的识别,大大提高了整体的识别效率。
在上述实施例的基础上,本发明实施例通过从第二次迭代开始,利用得到的正则表达式在测试集中进行验证,当达到预设正确率时迭代终止,从而得到用于语音信息识别的分类器。
本发明实施例针对于当前VIE存在的问题,提出两个设计关键点。1.Bi-Phrase,利用命名实体,组合出有意义的词汇;2.在语音翻译错误一致性假设的前提下,局部约束空间训练词向量,利用词向量的相似性,归纳正则组,再次迭代词向量,最终找齐意图表征空间。
图2是本发明另一实施例提供的语音信息提取方法流程图。图3是本发明一实施例提供的语音信息提取方法中的词性临接关系组合示例。图4是本发明一实施例提供的语音信息提取方法中的基于word2vec处理后的聚类结果示意图。下面结合图2、图3及图4通过再给出语音信息提取方法的另一具体实例。
第一、获取充分采样空间
1)选取城市哈尔滨、无锡一南,一北两个城市;
2)取得线上转录全量数据
第二、进行数据试探和观察
1)每通400电话对应一个document文本,先利用已有方法对文本进行分词及词性分析;
2)以词性作为规则的勾连点,得到有实意的Bi-Grams(与上文的Bi-Phrase同意),即进一步进行分词。分词过程是有组合优先级的,在进行组合时,选择连续的三个词作为一个备选库,在备选库里匹配看有没有满足优先级的bi-gram,有的话,备选库下移,直至结束。进行匹配时将相邻两个词性组合与词性临接关系表中的词性临接关系组合进行匹配。如图3所示,是本发明一实施例提供的语音信息提取方法中的词性临接关系组合示例,可以根据感兴趣的组合选取词性临接关系组合,从而构成词性临接关系表。
3)通过观察,积累初始化词汇点。初始化词汇点用于聚合处理。
第三、初始点的第一次word2vec
1)通过TF-IDF,按照权重获取停用词;利用TF-IDF算法,把整个词库中的词做一个清洗,去除停用词。停用词表示对语义分析用处不大的词。
2)去除通用词后,对document进行表达,然后,做第一次的word2vec,得到词向量表达。
在进行word2vec转换后,可以把词转换为向量空间的表达,如图4所示。word2vec有一个好处,在进行转换以后,词义类似的词条,会出现一个聚集现象,例如图4左上角的*单元、单元之类的聚集在一起。有了这样的聚合之后,就可以进行下一步的操作。
3)根据初始化词汇点进行most_like的词汇查找。
由于在上一步把词按照词义进行了一个聚合,那么只要给定一个起始点,在该点一个阈值范围内的词汇,都认为是与该点词汇有极大相关性的一个表述,就能得到与该起始点相关的一个小的词云集合。例如:会发现“二单元、一厅、单元、四单元”等词汇聚集在一起了。
第四、制作TopicSpace
依据初始化词汇点得到的词云集合,对词云集合进行正则抽象。对于某些文字全部转化为拼音:对于某些文字在识别的时候会发生错误,而在观察整体数据后发现,这些错误是具有一致性的,即每次出现类似的读音,都会错误的识别为同样的错误内容。对于这样的词,就将其文字全部转换为拼音,利用拼音来代表该词汇在语义空间的表达。
在正则抽象时,先把所有的词转换为拼音,用上一步分析得到的预设的拼音关键词先进行一个全部的匹配,匹配上的关键词,就意味着相应的词汇要用语音表示,匹配不上的,再转换为文字,进行文字的正则抽象。
在第二次迭代处理时,利用正则表达式替换ALL RAW Document(初始语音文档)中对应的词汇。
第五、第N次word2vec
1)对于变化后的语料,重新计算word2vec,进行第二次整理;
2)依次重复上述过程,从第二次开始在测试集上验证信息抽取的正确率;
3)在测试集上达到一定正确率后,迭代停止。
图5是本发明一实施例提供的语音信息提取装置的结构示意图。如图5所示,所述装置包括训练模块10和预测模块20,其中:训练模块10用于:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测模块20用于:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
本发明实施例通过在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;然后再利用得到的各个正则表达式在待处理语音文档中进行匹配,从而得到待处理文档中是否包含与相应正则表达式对应的主题空间对应的主题类别的信息,提高了感兴趣信息提取的准确率、快速性以及泛化能力。
进一步地,基于上述实施例,预测模块10在用于获取与不同主题类别对应的初始化词汇点对应的主题空间时,具体用于:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。
在上述实施例的基础上,本发明实施例通过将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间,实现了主题空间的便利化获取。
进一步地,基于上述实施例,预测模块10在用于将各个所述主题空间中的词汇用拼音和/或文字进行表示时,具体用于:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。
在上述实施例的基础上,本发明实施例通过将各个主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的词汇用相应拼音关键词表示,匹配不成功的词汇恢复成文字表示,由此极大地提高语音信息提取的正确率和可信度。
进一步地,基于上述实施例,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。
在上述实施例的基础上,本发明实施例通过在后续迭代时,根据上一次迭代得到的正则表达式对上一次迭代对应的迭代训练样本中的相应词汇进行替换,实现了逐步优化的迭代训练过程。
进一步地,基于上述实施例,预测模块10在用于将迭代训练样本通过预设算法转换为词向量并进行聚类之前,还用于:将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。
在上述实施例的基础上,本发明实施例通过将迭代训练样本进行词性标注,并根据预设的词性临接关系表对迭代训练样本进行进一步分词处理,可以提取到更多的、更准确的信息,从而提高了语音信息提取的全面性和准确性。
进一步地,基于上述实施例,预测模块10在用于根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理时,具体用于:提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。
在上述实施例的基础上,本发明实施例通过提取迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与词性临接关系表中包含的词性临接关系组合进行匹配,根据匹配成功的词性临接关系组合的优先级由高到低的顺序将相邻的两个词性相邻词性对应的文本组合为一个词,提高了分词划分的准确性,从而进一步提高了语音信息提取的准确性。
进一步地,基于上述实施例,预测模块10在用于根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理之后、将迭代训练样本通过预设算法转换为词向量并进行聚类之前,还用于:将所述迭代训练样本利用TF-IDF算法进行处理,获取所述迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对所述迭代训练样本进行表达。
在上述实施例的基础上,本发明实施例通过将迭代训练样本利用TF-IDF算法进行处理,获取迭代训练样本中不同词汇的权重;根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对迭代训练样本进行表达,提高了语音信息提取的准确度和效率。
进一步地,基于上述实施例,在所述后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的所述停用词进行过滤后得到的迭代训练样本。
在上述实施例的基础上,本发明实施例通过在后续迭代时,迭代训练样本为根据上一次迭代得到的正则表达式对上一次迭代对应的迭代训练样本中的相应词汇进行替换,并且利用上一次迭代得到的停用词进行过滤后得到的语音文档,进一步提高了语音信息提取的准确度和效率。
进一步地,基于上述实施例,所述训练模块10还用于从第二次迭代开始,利用得到的所述正则表达式在测试集中进行验证,当达到预设正确率时迭代终止。
在上述实施例的基础上,本发明实施例通过从第二次迭代开始,利用得到的正则表达式在测试集中进行验证,当达到预设正确率时迭代终止,从而得到用于语音信息识别的分类器。
本发明实施例提供的装置是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。
图6是本发明一实施例提供的电子设备的实体结构示意图。如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音信息提取方法,其特征在于,包括:
训练步骤,所述训练步骤包括:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;
预测步骤,所述预测步骤包括:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
2.根据权利要求1所述的语音信息提取方法,其特征在于,所述获取与不同主题类别对应的初始化词汇点对应的主题空间,包括:将迭代训练样本通过预设算法转换为词向量并进行聚类,从而得到与不同主题类别对应的初始化词汇点对应的主题空间。
3.根据权利要求1所述的语音信息提取方法,其特征在于,所述将各个所述主题空间中的词汇用拼音和/或文字进行表示,包括:将各个所述主题空间中所有的词汇先转换为拼音,然后利用预设拼音关键词进行匹配,匹配成功的所述词汇用相应所述拼音关键词表示,匹配不成功的所述词汇恢复成文字表示。
4.根据权利要求2或3所述的语音信息提取方法,其特征在于,在第一次迭代时,所述迭代训练样本为初始语音文档,所述初始语音文档为对语音数据经过语音识别及初步分词处理后的文档;在后续迭代时,所述迭代训练样本为根据上一次迭代得到的所述正则表达式对上一次迭代对应的所述迭代训练样本中的相应词汇进行替换得到的语音文档。
5.根据权利要求2所述的语音信息提取方法,其特征在于,在所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:
将所述迭代训练样本进行词性标注,并根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理;其中,所述词性临接关系表包括预设的多个具有优先级别划分的词性临接关系组合。
6.根据权利要求5所述的语音信息提取方法,其特征在于,所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理,包括:
提取所述迭代训练样本的词性标注信息,根据预设的滑动窗口依次覆盖对应数量的多个相邻词性,将相邻的两个词性分别与所述词性临接关系表中包含的所述词性临接关系组合进行匹配,根据匹配成功的所述词性临接关系组合的优先级由高到低的顺序将所述相邻的两个词性对应的文本组合为一个词。
7.根据权利要求5或6所述的语音信息提取方法,其特征在于,在所述根据预设的词性临接关系表对所述迭代训练样本进行进一步分词处理之后,所述将迭代训练样本通过预设算法转换为词向量并进行聚类之前,所述方法还包括:
将所述迭代训练样本利用TF-IDF算法进行处理,获取所述迭代训练样本中不同词汇的权重;
根据预设阈值,将低权重的词汇设置为停用词,利用高权重的词汇对所述迭代训练样本进行表达。
8.一种语音信息提取装置,其特征在于,包括:
训练模块,用于:在多次迭代训练过程中,获取与不同主题类别对应的初始化词汇点对应的主题空间;将各个所述主题空间中的词汇用拼音和/或文字进行表示;将各个所述主题空间进行正则化抽象,分别得到相应的正则表达式;
预测模块,用于:利用得到的各个所述正则表达式在待处理语音文档中进行匹配,若匹配成功,则所述待处理文档中包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别;若匹配不成功,则所述待处理文档中不包含与相应所述正则表达式对应的所述主题空间对应的所述主题类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音信息提取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音信息提取方法的步骤。
CN202010469029.XA 2020-05-28 2020-05-28 一种语音信息提取方法及装置 Pending CN111797228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010469029.XA CN111797228A (zh) 2020-05-28 2020-05-28 一种语音信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010469029.XA CN111797228A (zh) 2020-05-28 2020-05-28 一种语音信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN111797228A true CN111797228A (zh) 2020-10-20

Family

ID=72806366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010469029.XA Pending CN111797228A (zh) 2020-05-28 2020-05-28 一种语音信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN111797228A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
CN109949799A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种语义解析方法及系统
CN110727759A (zh) * 2018-06-29 2020-01-24 北京京东尚科信息技术有限公司 一种确定语音信息的主题的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN110727759A (zh) * 2018-06-29 2020-01-24 北京京东尚科信息技术有限公司 一种确定语音信息的主题的方法和装置
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
CN109949799A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种语义解析方法及系统

Similar Documents

Publication Publication Date Title
US11663411B2 (en) Ontology expansion using entity-association rules and abstract relations
CN107590172B (zh) 一种大规模语音数据的核心内容挖掘方法及设备
CN108538286A (zh) 一种语音识别的方法以及计算机
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111125354A (zh) 文本分类方法及装置
CN109584865B (zh) 一种应用程序控制方法、装置、可读存储介质及终端设备
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN114580382A (zh) 文本纠错方法以及装置
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN104182388A (zh) 一种基于语义分析的文本聚类系统及方法
CN111177350A (zh) 智能语音机器人的话术形成方法、装置和系统
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN113254643A (zh) 文本分类方法、装置、电子设备和
CN111724766B (zh) 语种识别方法、相关设备及可读存储介质
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
US8806455B1 (en) Systems and methods for text nuclearization
CN114186061A (zh) 语句意图预测方法、装置、存储介质及计算机设备
CN110750619B (zh) 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN111274390A (zh) 一种基于对话数据的情感原因确定方法及装置
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN108475265B (zh) 获取未登录词的方法与装置
CN109241281B (zh) 软件失效原因生成方法、装置及设备
CN111797228A (zh) 一种语音信息提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination