CN111415656B

CN111415656B - 语音语义识别方法、装置及车辆

Info

Publication number: CN111415656B
Application number: CN201910009490.4A
Authority: CN
Inventors: 刘磊
Original assignee: Shanghai Qwik Smart Technology Co Ltd
Current assignee: Shanghai Qwik Smart Technology Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2024-04-30
Anticipated expiration: 2039-01-04
Also published as: CN111415656A

Abstract

本申请涉及语音语义识别方法，包括实时判断是否接收到用户的语音信息；在接收到语音信息时，判断是否符合预设话术；若符合，根据语音信息进行相对应的响应操作；若不符合，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。本申请还涉及一种语音语义识别装置及车辆。本申请的语音语义识别方法能够将语音交互技术引用到车机设备中，利用语音识别技术能减少用户手动操作，而且能够让用户在没有掌握话术的条件下，给用户提供话术指引，提供更加贴切的帮助，同时也加快了用户掌握语音功能的进度，提高了用户体验。

Description

语音语义识别方法、装置及车辆

技术领域

本申请涉及语音识别技术领域，具体涉及一种语音语义识别方法、装置及车辆。

背景技术

语音识别技术是一种通过机器正确识别人类的语音，并将人类语音中的词汇内容转换为相应的计算机可读可输入的文本或命令的高科技技术。随着科技的不断进步，语音识别技术涉及领域也越来越广泛。相对于键盘输入等其他输入方式，语音识别技术更符合用户日常习惯，因此，它将成为最重要的人机交互技术之一。

然而，现有的语音功能，智能化程度并不能像真人一样，具体话术及使用方法需要用户学习才能更好的使用语音功能，而用户并不愿意花费时间和精力去阅读说明书，即便愿意阅读说明书，许多话术也难以记住。

针对现有技术的多方面不足，本申请提出一种语音语义识别方法、装置及车辆。

发明内容

本申请的目的在于，提供一种语音语义识别方法、装置及车辆，能够将语音交互技术引用到车机设备中，利用语音识别技术能减少用户手动操作，而且能够让用户在没有掌握话术的条件下，给用户提供话术指引，提供更加贴切的帮助，同时也加快了用户掌握语音功能的进度，提高了用户体验。

为解决上述技术问题，本申请提供一种语音语义识别方法，该方法包括如下步骤：实时判断是否接收到用户的语音信息；在接收到语音信息时，判断是否符合预设话术；若符合，根据语音信息进行相对应的响应操作；若不符合，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。

在一实施方式中，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图的步骤包括将接收到的语音信息转化为至少一条文本信息；对文本信息进行分词，其中分词采用基于词库分词；根据分词后的文本识别关键词；根据关键词和/或关键词的组合获取用户的目标意图。

在一实施方式中，将接收到的语音信息转化为至少一条文本信息的步骤包括对语音信息进行特征识别，以获取用户的语音特征，其中用户的语音特征至少包括用户所处的地区特征数据；根据用户的语音特征判断用户所使用的语言类型对应地区的官方语言类型；将语音信息转换为与该官方语言类型相匹配的至少一条文本信息。

在一实施方式中，将接收到的语音信息转化为至少一条文本信息的步骤之后包括对至少一条文本信息通过近义词匹配和常见同音字替换进行纠错处理。

在一实施方式中，基于词库分词是依靠中文词典数据库、历史行为词库和热门搜索词库对文本信息进行分词。

在一实施方式中，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息的步骤之前包括将输入示范信息根据预设规则进行分类。

在一实施方式中，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息的步骤之后包括将输入示范信息根据与用户目标意图和预设话术的相匹配程度进行加权评分，获取并展示排名在前n位的输入示范信息，其中，n为大于或等于1的正整数。

为解决上述技术问题，本申请还提供一种语音语义识别装置，该装置包括存储器和处理器，存储器用于存储可执行程序代码；处理器用于调用存储器中的可执行程序代码，以执行如下步骤：实时判断是否接收到用户的语音信息；在接收到语音信息时，判断是否符合预设话术；若符合，根据语音信息进行作出相对应的响应操作；若不符合，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。

在一实施方式中，处理器还用于将接收到的语音信息转化为至少一条文本信息；对文本信息进行分词，其中，分词采用基于词库分词；根据分词后的文本识别关键词；根据关键词和/或关键词的组合获取用户的目标意图。

为解决上述技术问题，本申请还提供一种车辆，该车辆配置有上述语音语义识别装置，该车辆为无人驾驶车辆、人工驾驶车辆、或在无人驾驶车辆与人工驾驶车辆之间自由切换的智能车辆。

本申请的语音语义识别方法、装置及车辆能够将语音交互技术引用到车机设备中，利用语音识别技术能减少用户手动操作，而且能够让用户在没有掌握话术的条件下，给用户提供话术指引，提供更加贴切的帮助，同时也加快了用户掌握语音功能的进度，提高了用户体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本申请一实施方式的语音语义识别方法的的流程示意图。

图2为一实施方式中图1所示的语音语义识别方法中步骤S15的流程示意图。

图3为一实施方式中图1所示的语音语义识别方法中步骤S16的流程示意图。

图4为本申请一实施方式的语音语义识别装置的的结构示意图。

具体实施方式

为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例，对本申请详细说明如下。

通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。

图1为本申请第一实施列提供的语音语义识别方法的流程示意图，如图1所示，语音语义识别方法包括以下步骤：

步骤S11:实时判断是否接收到用户的语音信息。

具体地，可通过麦克风或其他语音输入设备接收用户的语音信息。

若没有接收到用户的语音信息，则执行步骤S12:不作处理；若接收到用户的语音信息，则执行步骤S13:判断是否符合预设话术。

若符合预设话术，则执行步骤S14：根据语音信息进行相应的响应操作。

具体地，预设话术为通过预先机器语言学习所掌握的话术，即当接收到与预设话术一致的语音信息时，可以不经过处理便进行相对应的响应操作。举例而言，本实施方式的预设话术可以为“请帮我导航到XXX”、“打开空调”、“打开收音机”等等。

若不符合预设话术，例如“给我导航把空调打开还有收音机”、“放歌听一下”、“是时候该吃饭了，找个停车场停车，我要去吃饭”等等，此时接收到的信息无法被识别，且无法进行相应的响应操作，则执行步骤S15：解析语言信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图。

具体地，在一实施方式中，为了方便用户操作，用户无需进行预先训练词语、也无需采用固定的词语，本申请可以直接对普通的自然语言进行识别处理，解析接收到语音信息，获取语音信息中的关键词，然后再根据关键词和/或关键词的组合获取用户目标意图。

具体地，在一实施方式中，步骤S15:解析接收到语言信息，获取语音信息中的关键词,根据关键词和/或关键词的组合获取用户目标意图可以为通过将语音信息转化为纯文本信息，通过对纯文本信息进行分词以获取语音信息的关键词,根据关键词和/或关键词的组合获取用户目标意图。在另一实施方式中，也可以通过根据语音信息提取语音特征信息，根据语音特征信息和预设的声学模型生成语音信息的识别结果，再根据预设算法和语音信息的识别结果获取用户目标意图。

具体地，用户的目标意图可以包括想要使用的功能，例如导航功能、控制车辆上各个设备的功能，如车载多媒体设备、车窗、灯光装置等。用户的目标意图也可以包括想要到达的目的地、想要听的歌曲和想通话的人等等。

步骤S16：获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。

具体地，在本实施方式中，输入示范信息可以是预先通过预先机器语言学习所掌握的预设话术，也可以是根据用户的目标意图及预先话术相结合所生成的能被识别的信息。例如使用导航功能时，预设话术是“请帮我导航到XXX”，而得到的用户的目标意图中包含想要到达的目的地，例如“天安门广场”，则生成的输入示范信息可以包括“请帮我导航到天安门广场”。

具体地，在本实施方式中，获取并展示生成的输入示范信息的同时对该信息进行语音播报。

具体地，在本实施方式中，输入示范信息可以按功能进行分类，例如多媒体播放功能、导航功能等等。

图2为图1所示语音语义识别方法中步骤S15的一实施方式流程示意图。如图2所示，本实施方式中解析语言信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图的步骤，具体可以包括如下过程。

步骤S21：对接收到的语音信息进行特征识别，以获取用户语音特征。

具体地，用户的语言特征至少包括用户所处的地区特征数据。

具体地，用户所处的地区特征是指用户所在地或者用户的籍贯地区，可根据用户所使用语言类型来判断。语言类型可包括不同语种、方言等，例如、英语、日语、韩语、阿拉伯语、粤语、四川方言等。具体地，可对接收到的语音信音进行语义解析，以获取语音信息所属的语言类型，并根据所属的语言类型获取所述用户所处的地区特征数据。

具体地，在本实施方式中，对语音信息进行语义解析后，可得到语音的具体内容。然后，根据具体内容中的词汇、语义等和预先建立的语言词汇数据库进行比对，其中，语言词汇数据库中包括不同语言类型对应的词汇库。从而可根据用户的语音信息对应的词汇比对出对应的语言类型，并进一步预测出该用户所处的地区特征数据。例如，如果用户使用的是葡萄牙语，则用户可能为来自葡萄牙语使用国的用户或者用户正处于葡萄牙语使用国，如果用户使用的是粤语，则用户可能为来自广东、香港等地的用户或者用户正处于广东、香港等地。

步骤S22：根据用户的语音特征判断用户所使用的语言类型对应地区的官方语言类型。

具体地，在本实施方式中，可根据用户所处的地区特征数据判断用户所使用的语言类型对应地区的官方语言类型，例如，如果用户所处地区特征数据对应的是四川，则可知用户使用的语言类型为四川方言，而对应的官方语言为普通话。

具体地，在另一实施方式中，用户还可以触发语言按钮并选择用户希望识别的语音信息的语言类型，例如，语言类型可以但不限于中文(普通话及地方方言如粤语、东北话、四川话等等)、英语、法语、德语及韩语等，从而经过处理后得到该语言类型相对应的官方语言类型。

步骤S23：将语音信息转换为与该官方语言类型相匹配的至少一条文本信息。

具体地，在本实施方式中，为提高语音信息识别的可靠性，可通过大数据学习获取与该语言信息相关的字和词，以组成多条文本信息。在另一实施方式中，也可以直接将用户的语音信息转化为一条纯文本信息。

具体地，为了防止语音信息转换为文本信息处理错误的因素，在一实施方式中，将接收到的语音信息转化为至少一条文本信息的步骤之后还包括对至少一条文本信息通过近义词匹配和常见同音字替换进行纠错处理。

具体地，在本实施方式中，进行纠错处理时，首先通过近义词匹配来进行纠错，然后采用常见的同音字判断词组是否存在，若存在则进行纠错替换。例如“我想吃XX食物，请帮我推荐附近的餐馆”中的“食物”，在语音信息转换文本信息中可能会成为“事务”、“失误”或“实物”等错误信息，通过纠错处理后，替换为正确的“食物”。

步骤S24：对文本信息进行分词。

具体地，在本实施方式中，分词采用基于词库分词，基于词库分词是依靠中文词典数据库、历史行为词库和热门搜索词库对所述文本信息进行分词。

具体地，分词的准确率取决于算法和词库，不同的语言由于构成不同需要采用不同的分词技术，例如，英文是以词为单位，词和词之间靠空格隔开，而中文是以字为单位，相邻的字连接起来构成一个词，在另一实施方式中，可以采用正则分词与基于词典的分词算法MMSEG(A Word Identification System for Mandarin Chinese Text Based On TwoVariants Of The Maximum Matching Algorithm)算法，从而实现对英文，中文的分词。

具体地，在本实施方式中，分词的原则是关键词按最少分词次数进行分割。通过分词可以降低识别复杂度，提高识别效率。

步骤S25：根据分词后的文本获取关键词。

具体地，在本实施方式中，根据分词后的文本识别关键词，对于未能识别的文本则采用预先建立的用户习惯用词库进行匹配识别。在另一实施方式中，对于未能识别的文本也可以进行舍弃处理。

步骤S26：根据关键词和/或关键词的组合获取用户目标意图。

具体地，在本实施方式中，可以根据关键词和/或关键词的组合获取用户的目标意图，推断出用户可能想要进行的操作，从而提供指引与帮助。

图3为图3为图1所示语音语义识别方法中步骤S16的一实施方式流程示意图。如图3所示，本实施方式中获取并展示至少一条与用户目标意图及预设话术相匹配的输入示范信息的步骤具体包括如下步骤。

步骤S31：将输入示范信息根据预设规则进行分类。

具体地，在本实施方式中，预设规则可以是按功能进行分类，例如车辆的导航功能、车载多媒体的播放功能等等。

具体地，随着机器语言的不断学习，输入示范信息的数据量将越来越庞大，将输入示范信息根据预设规则进行分类是为了提高响应速率，使用户能够更快的获取输入示范信息，从而提高用户体验。

步骤S32：将输入示范信息预设话术根据与用户的目标意图及预设话术的相匹配程度进行排序加权评分，获取并展示评分排在前n位的输入示范信息。

具体地，在本实施方式中，终端展示的是与用户目标意图及预设话术相匹配程度最高的前n位的输入示范信息。在其他实施方式中，终端展示的也可以是与用户目标意图及预设话术相匹配且用户历史使用频率最高的输入示范信息。

图4为本申请语音语义识别装置的一实施方式的结构示意图，如图4所示，本实施方式的语音语义识别装置40包括：存储器401和处理器402。存储器401用于存储可执行程序代码；处理器402用于调用存储器401中的可执行程序代码，以执行如下步骤：实时判断是否接收到用户的语音信息；在接收到语音信息时，判断是否符合预设话术；若符合，根据语音信息进行作出相对应的响应操作；若不符合，解析语音信息，获取语音信息中的关键词，根据关键词和/或关键词的组合获取用户目标意图，获取并展示至少一条与用户的目标意图及预设话术相匹配的输入示范信息。

在一实施方式中，处理器402还用于将接收到的语音信息转化为至少一条文本信息；对文本信息进行分词，其中，分词采用基于词库分词；根据分词后的文本识别关键词；根据关键词和/或关键词的组合获取用户的目标意图。

本申请还提供一种车辆，该车辆配置有上述语音语义识别装置，该车辆为无人驾驶车辆、人工驾驶车辆、或在无人驾驶车辆与人工驾驶车辆之间自由切换的智能车辆。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请,任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。

Claims

1.一种语音语义识别方法，其特征在于，所述语音语义识别方法包括：

实时判断是否接收到用户的语音信息；

在接收到所述语音信息时，判断是否符合预设话术，其中，预设话术为通过预先机器语言学习所掌握的话术；

若符合，根据所述语音信息进行相对应的响应操作；

若不符合，解析所述语音信息，获取所述语音信息中的关键词，根据所述关键词和/或所述关键词的组合获取用户目标意图，获取并展示至少一条与所述用户的目标意图及所述预设话术相匹配的输入示范信息，其中，所述输入示范信息是根据所述用户目标意图及所述预设话术相结合所生成的能被识别的信息；

所述获取并展示至少一条与所述用户的目标意图及所述预设话术相匹配的输入示范信息的步骤包括：

将所述输入示范信息根据与所述用户的目标意图及所述预设话术的相匹配程度进行加权评分，获取并展示评分排在前n位的所述输入示范信息，其中，n为大于或等于1的正整数。

2.如权利要求1所述的语音语义识别方法，其特征在于，所述解析所述语音信息，获取所述语音信息中的关键词，根据所述关键词和/或所述关键词的组合获取用户目标意图的步骤包括：

将接收到的所述语音信息转化为至少一条文本信息；

对所述文本信息进行分词，其中，所述分词采用基于词库分词；

根据分词后的文本识别所述关键词；

根据所述关键词和/或所述关键词的组合获取所述用户的目标意图。

3.如权利要求2所述的语音语义识别方法，其特征在于，将接收到的所述语音信息转化为至少一条文本信息的步骤包括：

对所述语音信息进行特征识别，以获取所述用户的语音特征，其中所述用户的语音特征至少包括用户所处的地区特征数据；

根据所述用户的语音特征判断所述用户所使用的语言类型对应地区的官方语言类型；

将所述语音信息转换为与所述官方语言类型相匹配的所述至少一条文本信息。

4.如权利要求2所述的语音语义识别方法，其特征在于，所述将接收到的所述语音信息转化为至少一条文本信息的步骤之后包括：

对所述至少一条文本信息通过近义词匹配和常见同音字替换进行纠错处理。

5.如权利要求2所述的语音语义识别方法，其特征在于，所述基于词库分词是依靠中文词典数据库、历史行为词库和热门搜索词库对所述文本信息进行分词。

6.如权利要求1所述的语音语义识别方法，其特征在于，所述获取并展示至少一条与所述用户的目标意图及所述预设话术相匹配的输入示范信息的步骤之前包括：

将所述输入示范信息根据预设规则进行分类以提高响应速率。

7.一种语音语义识别装置，其特征在于，包括存储器和处理器，

所述存储器用于存储可执行程序代码；

所述处理器用于调用所述存储器中的可执行程序代码，以执行如下步骤：

实时判断是否接收到用户的语音信息；

在接收到语音信息时，判断是否符合预设话术，其中，预设话术为通过预先机器语言学习所掌握的话术；

若符合，根据所述语音信息作出相对应的响应操作；

8.如权利要求7所述的语音语义识别装置，其特征在于，所述处理器还用于将接收到的所述语音信息转化为至少一条文本信息；对所述文本信息进行分词，其中，所述分词采用基于词库分词；根据分词后的文本识别关键词；根据所述关键词和/或所述关键词的组合获取所述用户的目标意图。

9.一种车辆，其特征在于，所述车辆配置有根据权利要求8所述的语音语义识别装置，所述车辆为无人驾驶车辆、人工驾驶车辆、或在无人驾驶车辆与人工驾驶车辆之间自由切换的智能车辆。