CN111782779A

CN111782779A - 语音问答方法、系统、移动终端及存储介质

Info

Publication number: CN111782779A
Application number: CN202010466374.8A
Authority: CN
Inventors: 洪国强; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-10-16
Anticipated expiration: 2040-05-28
Also published as: CN111782779B

Abstract

本发明提供了一种语音问答方法、系统、移动终端及存储介质，该方法包括：获取用户发送的提问语音，并对提问语音进行语音分词，得到多个分词语音；根据分词语音分别进行词汇查询，得到多个文本词汇，并在不同分词语音之间进行文本词汇的组合，得到多个提问语句；分别计算每个提问语句中相邻文本词汇之间的词汇关联度，并计算同一提问语句中所有词汇关联度之间的和，得到提问关联度；将最大提问关联度对应的提问语句设置为目标提问句，并将目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复。本发明中用户可以采用语音提问的方式进行语音问答操作，无需用户手动的进行提问句的输入，方便了用户的操作。

Description

语音问答方法、系统、移动终端及存储介质

技术领域

本发明属于自动问答技术领域，尤其涉及一种语音问答方法、系统、移动终端及存储介质。

背景技术

随着互联网技术的发展，人们获取知识的途径也变得多样化。其中自动问答是一种友好且便捷的方式，可以免除人们阅读文档的过程，直接将用户所需要的内容返回给用户。自动问答是科学领域中具有挑战性的研究方向，是自然语言处理领域长期以来重点关注的任务，其具体内容是根据给定的问题返回回答问题的答案。同时自动问答也是工程领域中的重要应用技术，在现实中有很多具体的应用，包括语音助手、智能音箱、在线智能客服等。这些应用给人们的生活带来了很大的便利。

现有的自动问答过程中，获取用户手动的输入提问句，并将获取到的提问句与问答数据库进行文字匹配，以得到答复句，但由于需要用户手动的进行提问句的输入，进而导致用户操作繁琐，降低了用户的操作体验。

发明内容

本发明实施例的目的在于提供一种语音问答方法、系统、移动终端及存储介质，旨在解决现有的自动问答过程中，由于需要用户手动进行提问句的输入，所导致的用户操作繁琐的问题。

本发明实施例是这样实现的，一种语音问答方法，所述方法包括：

获取用户发送的提问语音，并对所述提问语音进行语音分词，得到多个分词语音；

根据所述分词语音分别进行词汇查询，得到多个文本词汇，并在不同所述分词语音之间进行所述文本词汇的组合，得到多个提问语句；

分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度，并计算同一所述提问语句中所有所述词汇关联度之间的和，得到提问关联度；

将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复。

更进一步的，所述对所述提问语音进行语音分词的步骤包括：

对所述提问语音进行音素转换，得到音素串，并对所述音素串中相邻的声母和韵母进行组合，得到音素组；

对相邻所述音素组进行组合，得到多个音素词汇，并将所述音素词汇与预设音素词库进行匹配；

若所述音素词汇与所述预设音素词库匹配成功，则在所述音素串中对所述音素组对应的所述声母和所述韵母进行分词符划分；

将相邻所述分词符之间的语音设置为所述分词语音。

更进一步的，所述根据所述分词语音分别进行词汇查询的步骤包括：

分别将每个所述分词语音与预设文本词库进行匹配，并将匹配到的词汇设置为所述分词语音对应的所述文本词汇。

更进一步的，所述分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度的步骤包括：

分别在每个所述提问语句中对相邻所述文本词汇进行组合，得到组合词汇；

将每个所述组合词汇与预设关联表进行匹配，并将匹配到的关联值设置为所述组合词汇对应的所述词汇关联度。

更进一步的，所述分别将每个所述分词语音与预设文本词库进行匹配的步骤之前，所述方法还包括：

计算所述音素串中每个音素的音素基频，并根据所述音素基频计算所述音素串的平均基频；

根据所述平均基频获取所述用户的用户年龄，并根据所述用户年龄对所述预设文本词库进行词汇筛选。

更进一步的，所述根据所述平均基频获取所述用户的用户年龄，并根据所述用户年龄对所述预设文本词库进行词汇筛选的步骤包括：

将所述平均基频与预设年龄表进行匹配，将匹配到的年龄值设置为所述用户年龄；

查询所述用户年龄对应的词语类别，并对所述预设文本词库中属于所述词语类别的词汇进行词汇标记；

将所述预设文本词库中未被标记的词汇进行删除。

更进一步的，计算所述音素串中每个音素的音素基频所采用的方法为自相关算法、倒谱法或逆滤波法。

本发明实施例的另一目的在于提供一种语音问答系统，所述系统包括：

语音分词模块，用于获取用户发送的提问语音，并对所述提问语音进行语音分词，得到多个分词语音；

词汇组合模块，用于根据所述分词语音分别进行词汇查询，得到多个文本词汇，并在不同所述分词语音之间进行所述文本词汇的组合，得到多个提问语句；

关联度计算模块，用于分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度，并计算同一所述提问语句中所有所述词汇关联度之间的和，得到提问关联度；

提问答复模块，用于将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的语音问答方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的语音问答方法的步骤。

本发明实施例，通过对提问语音进行语音分词的设计，使得能将该提问语音划分为多个分词语音，基于分词语音可查询对应的文本词汇，基于该文本词汇可进行语句组合，得到多个提问语句，并将最大提问关联度对应的提问语句设置为目标提问句，使得用户可以采用语音提问的方式进行语音问答操作，无需用户手动的进行提问句的输入，方便了用户的操作。

附图说明

图1是本发明第一实施例提供的语音问答方法的流程图；

图2是本发明第二实施例提供的语音问答方法的流程图；

图3是本发明第三实施例提供的语音问答系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的语音问答方法的流程图，包括步骤：

步骤S10，获取用户发送的提问语音，并对所述提问语音进行语音分词，得到多个分词语音；

其中，该语音问答方法可以应用于任一具有语音采集功能的终端设备，例如，该终端设备可以为手机、平板或可穿戴智能设备等，优选的，该步骤中，可以通过拾音器的方式进行用户提问语音的获取；

具体的，该步骤中，可以采用基于音素匹配的分词算法对该提问语音进行语音分词，还可以采用基于语义理解的分词算法对该提问语音进行语音分词，以对应得到多个分词语音，例如，针对用户发送的提问语音A所得到的分词语音为：分词语音a₁-分词语音a₂-分词语音a₃；

步骤S20，根据所述分词语音分别进行词汇查询，得到多个文本词汇，并在不同所述分词语音之间进行所述文本词汇的组合，得到多个提问语句；

其中，本地预存储有预设文本词库，该预设文本词库中存储有不同分词语音与对应文本词汇之间的对应关系，在该预设文本词库中分词语音与文本词汇之间采用一对多的方式进行存储，因此，该步骤中，通过将分词语音分别与该预设文本词库进行匹配，以获取对应的文本词汇；

例如，针对提问语音A，则将该分词语音a₁、分词语音a₂和分词语音a₃分别与该预设文本词库进行匹配，以对应得到第一词汇集合b₁、第二词汇集合b₂和第三词汇集合b₃，该第一词汇集合b₁中存储有该分词语音a₁对应的文本词汇c₁和文本词汇c₂，第二词汇集合b₂中存储有该分词语音a₂对应的文本词汇c₃和文本词汇c₄，第三词汇集合b₃中存储有该分词语音a₃对应的文本词汇c₅和文本词汇c₆；

具体的，该步骤中，在该第一词汇集合b₁、第二词汇集合b₂和第三词汇集合b₃之间进行文本词汇的组合，以得到8个不同的提问语句，该提问语句分别为：c₁c₃c₅、c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆；

步骤S30，分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度，并计算同一所述提问语句中所有所述词汇关联度之间的和，得到提问关联度；

其中，分别计算提问语句c₁c₃c₅、c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆中相邻文本词汇之间的词汇关联度，例如，针对提问语句c₁c₃c₅，分别计算文本词汇c₁与c₃之间、文本词汇c₃与c₄之间的词汇关联度，并将计算得到的词汇关联度进行求和，得到该提问语句c₁c₃c₅对应的提问关联度d₁；

可以理解的，针对提问语句c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆采用相同的方式进行该提问关联度的计算，以得到提问关联度d₂、提问关联度d₃、提问关联度d₄、提问关联度d₅、提问关联度d₆、提问关联度d₇和提问关联度d₈；

步骤S40，将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复；

其中，将该提问关联度d₁、提问关联度d₂、提问关联度d₃、提问关联度d₄、提问关联度d₅、提问关联度d₆、提问关联度d₇和提问关联度d₈中最大的提问关联度对应的提问语句设置为目标提问句；

例如，当该最大的提问关联度为提问关联度d₃时，则将该提问关联度d₃对应的提问语句c₁c₄c₅设置为目标提问句，通过将该目标提问句与预设问答库进行匹配，将匹配到的答复语句向用户进行答复；

本实施例，通过对提问语音进行语音分词的设计，使得能将该提问语音划分为多个分词语音，基于分词语音可查询对应的文本词汇，基于该文本词汇可进行语句组合，得到多个提问语句，并将最大提问关联度对应的提问语句设置为目标提问句，使得用户可以采用语音提问的方式进行语音问答操作，无需用户手动的进行提问句的输入，方便了用户的操作。

实施例二

请参阅图2，是本发明第二实施例提供的语音问答方法的流程图，包括步骤：

步骤S11，获取用户发送的提问语音，并对提问语音进行音素转换，得到音素串；

其中，通过对该提问语音中的音素进行识别，以达到音素转换的效果，得到该音素串，例如，音素转换后得到的音素串可以为“jint ian zhou ji”；

步骤S21，对音素串中相邻的声母和韵母进行组合，得到音素组，对相邻音素组进行组合，得到多个音素词汇，并将音素词汇与预设音素词库进行匹配；

例如，当音素串中相邻的声母和韵母组合得到的音素组为“jin tian zhou ji”时，则对应得到的音素词汇为“jin tian”、“tian zhou”和“zhou ji”，并将音素词汇“jintian”、“tian zhou”和“zhou ji”分别与预设音素词库进行匹配；

步骤S31，若音素词汇与预设音素词库匹配成功，则在音素串中对音素组对应的声母和韵母进行分词符划分，并将相邻分词符之间的语音设置为分词语音；

例如，当该音素词汇“jin tian”和“zhou ji”均与预设音素词库匹配成功，则分词符划分结果为“/jintian/zhou ji/”,因此，将该音素词汇“jin tian”和“zhou ji”在该提问语音中对应的语音设置为分词语音；

步骤S41，计算音素串中每个音素的音素基频，并根据所述音素基频计算所述音素串的平均基频；

其中，计算所述音素串中每个音素的音素基频所采用的方法为自相关算法、倒谱法或逆滤波法；

步骤S51，根据所述平均基频获取所述用户的用户年龄，并根据所述用户年龄对预设文本词库进行词汇筛选；

其中，由于不同年龄的用户所面临的问题不相同，使得不同年龄的用户所提出的问题存在差异性，由于不同年龄的用户所提出的问题存在差异性，使得不同年龄的用户提问时的词汇存在类别的差异性，因此，该步骤中，基于不同年龄的用户提问时词汇类别的差异性，对预设文本词库进行词汇筛选，以提高后续文本词汇匹配的准确性；

具体的，由于基频反映了说话人发浊音时的声带振动频率，不同年龄的说话人针对同一个音素的基频不相同，因此，该步骤中，通过以平均基频为筛选条件进行词库的筛选，有效的提高了词汇筛选的准确性。

优选的，该步骤中，所述根据所述平均基频获取所述用户的用户年龄，并根据所述用户年龄对所述预设文本词库进行词汇筛选的步骤包括：

将所述预设文本词库中未被标记的词汇进行删除；

其中，通过查询所述用户年龄对应的词语类别的设计，以查询该用户年龄对应常用词汇的类别，并基于该词语类别对该预设文本词库中该用户年龄常用的词汇进行词汇标记，进而有效的提高了预设文本词库中词汇删除的准确性。

步骤S61，分别将每个所述分词语音与预设文本词库进行匹配，并将匹配到的词汇设置为所述分词语音对应的所述文本词汇，得到多个文本词汇；

其中，该预设文本词库中存储有不同分词语音与对应文本词汇之间的对应关系，且该预设文本词库中分词语音与文本词汇之间采用一对多的方式进行存储；

例如，针对用户发送的提问语音A所得到的分词语音为：分词语音a₁-分词语音a₂-分词语音a₃，将该分词语音a₁、分词语音a₂和分词语音a₃分别与该预设文本词库进行匹配，以对应得到第一词汇集合b₁、第二词汇集合b₂和第三词汇集合b₃，该第一词汇集合b₁中存储有该分词语音a₁对应的文本词汇c₁和文本词汇c₂，第二词汇集合b₂中存储有该分词语音a₂对应的文本词汇c₃和文本词汇c₄，第三词汇集合b₃中存储有该分词语音a₃对应的文本词汇c₅和文本词汇c₆；

步骤S71，在不同所述分词语音之间进行所述文本词汇的组合得到多个提问语句，并分别在每个所述提问语句中对相邻所述文本词汇进行组合，得到组合词汇；

其中，在该第一词汇集合b₁、第二词汇集合b₂和第三词汇集合b₃之间进行文本词汇的组合，以得到8个不同的提问语句，该提问语句分别为：c₁c₃c₅、c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆；

优选的，分别在提问语句c₁c₃c₅、c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆中对相邻所述文本词汇进行组合，以得到对应的组合词汇，例如，针对提问语句c₁c₃c₅，所得到的组合词汇为组合词汇c₁c₃和c₃c₅；

步骤S81，将每个所述组合词汇与预设关联表进行匹配，并将匹配到的关联值设置为所述组合词汇对应的所述词汇关联度；

其中，该预设关联表中存储有不同组合词汇与对应关联值之间的对应关系，因此，通过分别将提问语句c₁c₃c₅、c₁c₃c₆、c₁c₄c₅、c₁c₄c₆、c₂c₃c₅、c₂c₃c₆、c₂c₄c₅和c₂c₄c₆中的组合词汇分别与预设关联表进行匹配，以查询每个组合词汇对应的词汇关联度；

步骤S91，计算同一所述提问语句中所有所述词汇关联度之间的和，得到提问关联度；

步骤S101，将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复；

本实施例中，通过对提问语音进行语音分词的设计，使得能将该提问语音划分为多个分词语音，基于分词语音可查询对应的文本词汇，基于该文本词汇可进行语句组合，得到多个提问语句，并将最大提问关联度对应的提问语句设置为目标提问句，使得用户可以采用语音提问的方式进行语音问答操作，无需用户手动的进行提问句的输入，方便了用户的操作。

实施例三

请参阅图3，是本发明第三实施例提供的语音问答系统100的结构示意图，包括：语音分词模块10、词汇组合模块11、关联度计算模块12和提问答复模块13，其中：

语音分词模块10，用于获取用户发送的提问语音，并对所述提问语音进行语音分词，得到多个分词语音。

其中，所述语音分词模块10还用于：对所述提问语音进行音素转换，得到音素串，并对所述音素串中相邻的声母和韵母进行组合，得到音素组；

将相邻所述分词符之间的语音设置为所述分词语音。

词汇组合模块11，用于根据所述分词语音分别进行词汇查询，得到多个文本词汇，并在不同所述分词语音之间进行所述文本词汇的组合，得到多个提问语句。

其中，所述词汇组合模块11还用于：分别将每个所述分词语音与预设文本词库进行匹配，并将匹配到的词汇设置为所述分词语音对应的所述文本词汇。

关联度计算模块12，用于分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度，并计算同一所述提问语句中所有所述词汇关联度之间的和，得到提问关联度。

其中，所述关联度计算模块12还用于：分别在每个所述提问语句中对相邻所述文本词汇进行组合，得到组合词汇；

提问答复模块13，用于将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复。

此外，所述语音问答系统100还包括：

词汇筛选模块14，用于：计算所述音素串中每个音素的音素基频，并根据所述音素基频计算所述音素串的平均基频；

优选的，所述词汇筛选模块14还用于：将所述平均基频与预设年龄表进行匹配，将匹配到的年龄值设置为所述用户年龄；

将所述预设文本词库中未被标记的词汇进行删除。

进一步的，所述词汇筛选模块14中计算所述音素串中每个音素的音素基频所采用的方法为自相关算法、倒谱法或逆滤波法。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音问答方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将最大所述提问关联度对应的所述提问语句设置为目标提问句，并将所述目标提问句与预设问答库进行匹配，将匹配到的答复语句向所述用户进行答复。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的语音问答系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的语音问答方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音问答系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标语音问答系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的语音问答方法，其特征在于，所述对所述提问语音进行语音分词的步骤包括：

将相邻所述分词符之间的语音设置为所述分词语音。

3.如权利要求2所述的语音问答方法，其特征在于，所述根据所述分词语音分别进行词汇查询的步骤包括：

4.如权利要求1所述的语音问答方法，其特征在于，所述分别计算每个所述提问语句中相邻所述文本词汇之间的词汇关联度的步骤包括：

5.如权利要求3所述的语音问答方法，其特征在于，所述分别将每个所述分词语音与预设文本词库进行匹配的步骤之前，所述方法还包括：

6.如权利要求5所述的语音问答方法，其特征在于，所述根据所述平均基频获取所述用户的用户年龄，并根据所述用户年龄对所述预设文本词库进行词汇筛选的步骤包括：

将所述预设文本词库中未被标记的词汇进行删除。

7.如权利要求5所述的语音问答方法，其特征在于，计算所述音素串中每个音素的音素基频所采用的方法为自相关算法、倒谱法或逆滤波法。

8.一种语音问答系统，其特征在于，所述系统包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的语音问答方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的语音问答方法的步骤。