CN111798847A - 语音交互方法、服务器和计算机可读存储介质 - Google Patents

语音交互方法、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN111798847A
CN111798847A CN202010576786.7A CN202010576786A CN111798847A CN 111798847 A CN111798847 A CN 111798847A CN 202010576786 A CN202010576786 A CN 202010576786A CN 111798847 A CN111798847 A CN 111798847A
Authority
CN
China
Prior art keywords
semantic tree
entity
voice
extraction
voice request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010576786.7A
Other languages
English (en)
Inventor
申众
张又亮
张崇宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Internet of Vehicle Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Internet of Vehicle Technology Co Ltd filed Critical Guangzhou Xiaopeng Internet of Vehicle Technology Co Ltd
Priority to CN202211493085.2A priority Critical patent/CN115881121A/zh
Priority to CN202010576786.7A priority patent/CN111798847A/zh
Publication of CN111798847A publication Critical patent/CN111798847A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音技术领域,涉及一种语音交互方法、服务器和存储介质。该方法包括:接收车辆转发的用户语音请求;对语音请求的文本内容进行句法分析并构造语义树;解析语义树并提取实体对;利用提取的实体对使用预训练模型来预测实体之间的关系;利用预测结果完成语音请求的反馈。本发明通过句法分析并构造成语义树,再解析语义树确定实体间的关系并结合依赖关系传导,将包含嵌套关系的实体词根据语法关系组合起来,提取合理的组合实体对;最后再通过基于预训练模型的泛化理解能力,也许样本并不存在,但也能在一定程度上准确预测出两者之间的关系,进而完成后续的语音交互过程,改善了车载环境下使用语音的用户体验。

Description

语音交互方法、服务器和计算机可读存储介质
技术领域
本发明涉及语音技术领域,特别是涉及一种语音交互方法、服务器和计算机可读存储介质。
背景技术
随着车辆智能化的发展,在车辆上使用语音进行交互的方式越来越受到用户的欢迎。车载语音的应用场景中,经常会发生用户针对某类实体进行操作和询问的情况,例如:用户发出语音请求“打开空调”、“大灯开关在哪里”、“音乐频道刷新”等。在此类情况中,相关动作、询问和实体之间的关系组合决定了用户的实际意图。
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。作为自然语言处理领域广泛应用的预训练模型,BERT在各项任务中表现出良好的泛化性和精度。BERT在预训练过程中有两个任务,第一个是随机遮掩一句话中的某些词,来预测这些词出现的概率,这种随机遮掩方法假定词之间相互独立,例如“导航去肥仔烧排骨”,显然“肥仔烧排骨”中词之间的关系比跟“导航”更密切。
传统方式中,通常针对意图识别使用的方式包括文本分类、实体关系提取等。以实体关系提取为例,“导航去肥仔烧排骨”这个语音请求(Query)的实际含义是发出导航到一家名称为“肥仔烧排骨”的餐厅的导航请求,而在提取完实体后的结果如下:[“导航”,”肥仔”,”烧”,”排骨”],如果要预测动作和实体之间的关系,排列组合后的关系是:
[“导航”,“肥仔”]
[“导航”,“烧”]
[“导航”,“排骨”]
[“肥仔”,“烧”]
[“肥仔”,“排骨”]
[“烧”,“排骨”]
如果返回的结果是:[“导航”,“肥仔”],[“导航”,“排骨”],[“烧”,“排骨”],那么仍然无法知道组合实体和动作的关系。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音交互方法、服务器和计算机可读存储介质。
为了解决上述问题,本发明实施例公开了一种语音交互方法,其特征在于,包括:
接收车辆转发的用户语音请求;
对语音请求的文本内容进行句法分析并构造语义树;
解析语义树并提取实体对;
利用提取的实体对使用预训练模型来预测实体之间的关系;
利用预测结果完成语音请求的反馈。
进一步地,对语音请求的文本内容进行句法分析并构造语义树,包括:
基于包括句法结构分析、依存关系分析、深层文法句法分析在内的任意一种方式对语音请求的文本内容进行句法分析并构造语义树。
进一步地,对语音请求的文本内容进行句法分析并构造语义树,包括:
基于依存关系分析的方式对语音请求的文本内容进行句法分析;
构造语义树,其中,语义树包括根节点和除根节点之外的其他节点,根节点和其他节点都具备节点编号、节点文本、节点指向和对应的指向关系;语义树中各个节点之间具备传递和组合关系。
进一步地,解析语义树并提取实体对,包括:
使用预设提取规则对语义树进行解析;
根据解析结果进行实体词聚合处理后提取实体对。
进一步地,使用预设提取规则对语义树进行解析,包括:
使用包括主谓关系实体提取、动宾关系实体提取、动补关系实体提取、介宾关系实体提取、并列关系实体提取、定语关系实体提取、副词修饰关系实体提取在内的任意一种或多种的预设提取规则对语义树进行解析。
本发明实施例还公开一种服务器,其特征在于,包括:
接收模块,用于接收车辆转发的用户语音请求;
构造模块,用于对语音请求的文本内容进行句法分析并构造语义树;
解析模块,用于解析语义树并提取实体对;
预测模块,用于利用提取的实体对使用预训练模型来预测实体之间的关系;
反馈模块,用于利用预测结果完成语音请求的反馈。
进一步地,构造模块具体用于基于包括句法结构分析、依存关系分析、深层文法句法分析在内的任意一种方式对语音请求的文本内容进行句法分析并构造语义树。
进一步地,构造模块包括:
句法分析单元,用于基于依存关系分析的方式对语音请求的文本内容进行句法分析;
语义树构造单元,用于构造语义树,其中,语义树包括根节点和除根节点之外的其他节点,根节点和其他节点都具备节点编号、节点文本、节点指向和对应的指向关系;语义树中各个节点之间具备传递和组合关系。
本发明实施例还公开一种服务器,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的语音交互方法的步骤。
本发明实施例还公开一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的语音交互方法的步骤。
本发明实施例包括以下优点:
通过句法分析,可以将原始语音请求构造成语义树,然后通过解析语义树确定实体之间的关系并且结合实体词依赖关系的传导,将包含嵌套关系的实体词根据语法关系组合起来,提取出合理的组合实体对;最后再通过基于预训练模型预测实体之间的关系,由于预训练模型的长处是对语言特征的泛化理解强,也许样本并不存在,但也能在一定程度上准确预测出两者之间的关系,进而完成后续的语音交互过程,改善了车载环境下使用语音的用户体验。
附图说明
图1是本发明的一种语音交互方法实施例的步骤流程图;
图2是本发明的一种服务器实施例的结构框图;
图3是本发明的一种语义树的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
当前车载语音使用场景中有较多实体操作和实体询问,例如用户向车辆上车载系统的语音助手发出请求“打开车窗”、“播周杰伦的歌”等,动作、询问、实体之间的关系组合决定了用户的实际意图。针对意图识别采用的方法包括文本分类、实体关系提取等。
下面以几个车载环境中实体关系提取的示例来说明:
示例1
用户发出语音请求(Query)“进入打开蓝牙的页面”,在提取完实体后结果为:[“进入”,“打开”,“蓝牙”,“页面”]。如果要预测动作和实体之间的关系,排列组合后的关系是:
[“进入”,“蓝牙”]
[“进入”,“页面”]
[“打开”,“蓝牙”]
[“打开”,“页面”]
[“进入”,“打开”]
[“蓝牙”,“页面”]
“进入打开蓝牙的页面”这句话需要构造以上的样本分别进行预测之间的关系。如果预测正确[“进入”,“页面”],[“打开”,“蓝牙”]被选择,但是两者之间的关系无法进一步关联。
示例2
用户发出语音请求(Query)“导航去肥仔烧排骨”,在提取完实体后结果为:[“导航”,”肥仔”,”烧”,”排骨”],如果要预测动作和实体之间的关系,排列组合后的关系是:
[“导航”,“肥仔”]
[“导航”,“烧”]
[“导航”,“排骨”]
[“肥仔”,“烧”]
[“肥仔”,“排骨”]
[“烧”,“排骨”]
如果返回的结果是:[“导航”,“肥仔”],[“导航”,“排骨”],[“烧”,“排骨”],那么仍然无法知道组合实体和动作的关系。
进一步地,结合句法分析来看看实体关系提取的难点:
“导航到肥仔烧排骨”和“听一下贵妃醉酒”在句法结构上都是动宾结构:
[动词:“导航到”;宾语:“肥仔烧排骨”]
[动词:“听一下”;宾语:“贵妃醉酒”]
但是从关系来说“导航到肥仔烧排骨”是导航-目的地的关系;后者是听-歌的关系。只是知道句法结构并不能完全掌握用户实际意图。
本发明实施例的核心构思之一在于,基于句法分析和预训练语言模型的语音交互方法,以便克服上述问题或者至少部分地解决上述问题。
参照图1,示出了本发明的一种语音交互方法实施例的步骤流程图,具体可以包括如下步骤:
S1,接收车辆转发的用户语音请求;
S2,对语音请求的文本内容进行句法分析并构造语义树;
S3,解析语义树并提取实体对;
S4,利用提取的实体对使用预训练模型来预测实体之间的关系;
S5,利用预测结果完成语音请求的反馈。
相应地,参照图2,示出了本发明的一种服务器实施例的结构框图。本发明同时提出一种服务器,包括:
接收模块,用于接收车辆转发的用户语音请求;
构造模块,用于对语音请求的文本内容进行句法分析并构造语义树;
解析模块,用于解析语义树并提取实体对;
预测模块,用于利用提取的实体对使用预训练模型来预测实体之间的关系;
反馈模块,用于利用预测结果完成语音请求的反馈。
其中,一种语音交互方法实施例可以由服务器作为动作主体来完成所有步骤,也可以由服务器中的具体模块来完成各个步骤。例如,接收模块完成S1这个步骤,构造模块完成S2这个步骤,解析模块完成S3这个步骤,预测模块完成S4这个步骤,反馈模块完成S5这个步骤。
在S1的步骤中,接收模块接收车辆转发的用户语音请求。车辆上可以通过实体或者虚拟的方式设置一个语音助手,例如在车辆的中控方向设置一个实体部分的语音助手,响应用户的语音请求;或者在车辆的车载系统中设置一个虚拟的语音助手或者人工智能(英语:Artificial Intelligence,缩写为AI)助手,然后在中控屏幕中显示出来,以图形用户界面的方式以及设计不同的动画来响应用户的语音请求。
无论是哪种方式,车辆接收到车辆内用户的语音请求后,都会将该语音请求发送到对应的语音服务器,然后完成后续语音识别(Automatic Speech Recognition,简称ASR)、自然语言处理(Natural Language Processing,简称NLP)、语音合成(Text-To-Speech,简称TTS)等过程。由于NLP,是理解和处理文本的过程,在这个概念下还有两大子集,即自然语言理解(Natural Language Understanding,简称NLU)与自然语言生成(Natural Language Generation,简称NLG)。其中,NLU下的意图识别和实体提取非常关键。在生活中,如果想要订机票,人们会有很多种自然的表达:
“订机票”;
“有去上海的航班么?”;
“看看航班,下周二出发去纽约的”;
“要出差,帮我查下机票”。
可以说“自然的表达”有无穷多的组合(自然语言)都是在代表“订机票”这个意图的。而作为自然人,当然可以轻易并且准确理解这些表达指的是“订机票”这件事。但是要理解这么多种不同的表达,对机器是个挑战。在过去,机器只能处理“结构化的数据”(比如关键词),也就是说如果要听懂人在讲什么,必须要用户输入精确的指令。
在S2的步骤中,构造模块对语音请求的文本内容进行句法分析并构造语义树。句法分析是NLP中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
具体地,S2的步骤包括:
基于包括句法结构分析、依存关系分析、深层文法句法分析在内的任意一种方式对语音请求的文本内容进行句法分析并构造语义树。
句法结构分析(Syntactic Structure Parsing),又称短语结构分析(PhraseStructure Parsing),也叫成分句法分析(Constituent Syntactic Parsing)。作用是识别出句子中的短语结构以及短语之间的层次句法关系。
依存关系分析,又称依存句法分析(Dependency Syntactic Parsing),简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系。
深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(Lexicalized TreeAdjoining Grammar,LTAG)、词汇功能文法(Lexical Functional Grammar,LFG)、组合范畴文法(Combinatory Categorial Grammar,CCG)等,对句子进行深层的句法以及语义分析。
即在S2的步骤中可以使用任意一种方式对语音请求的文本内容进行句法分析并构造语义树。下面以依存关系分析为例,来说明句法分析过程和语义树构造过程。进一步地,S2的步骤包括:
S21,基于依存关系分析的方式对语音请求的文本内容进行句法分析;
S22,构造语义树,其中,语义树包括根节点和除根节点之外的其他节点,根节点和其他节点都具备节点编号、节点文本、节点指向和对应的指向关系;语义树中各个节点之间具备传递和组合关系。
相应地,构造模块包括:
句法分析单元,用于基于依存关系分析的方式对语音请求的文本内容进行句法分析;
语义树构造单元,用于构造语义树,其中,语义树包括根节点和除根节点之外的其他节点,根节点和其他节点都具备节点编号、节点文本、节点指向和对应的指向关系;语义树中各个节点之间具备传递和组合关系。
即S21和S22这两个步骤可以由构造模块作为动作主体来执行,也可以分别由构造模块中的单元来执行。具体地,句法分析单元可以作为S21这个步骤的动作执行主体,语义树构造单元可以作为S22这个步骤的动作执行主体。
在S21的步骤中,以语音请求的文本内容为“进入打开蓝牙的页面”为例,通过句法分析可以知道,在提取完实体后结果为:[“进入”,“打开”,“蓝牙”,“页面”],其中“打开”和“蓝牙”是动宾关系,“打开”是“页面”的定语。
在S22的步骤中,如图3所示,示出了构造的语义树的结构。如表1所示,下面以表格的方式来说明语义树中各个部分的含义。
节点编号 节点文本 节点指向 指向关系
1 进入 0 HED
2 打开 4 ATT
3 蓝牙 2 VOB
4 页面 1 VOB
表1
分别以数字1、2、3、4来表示不同节点编号,节点文本分别对应实体提取的初步结果,节点指向表示具体的指向关系,在指向关系中,HED表示Head是作为构造的语义树的根节点,ATT表示定语修饰关系,VOB表示动宾关系,SBV表示主谓关系,RAD表示助词,COO表示并列关系,当然依存关系不局限在本发明所列的示例,具体可以根据需求定义不同的指向关系并增加在语义树中的结构中。
类似地,以语音请求的文本内容为“你说完了么打开空调”为例,构造的语义树的结构也可以通过表2来说明。
节点编号 节点文本 节点指向 指向关系
1 2 SBV
2 说完 0 HED
3 2 RAD
4 2 RAD
5 打开 2 COO
6 空调 5 VOB
表2
在构造的语义树中,树以根节点开始;所有的节点指向都能归结于根节点,每个节点只能指向一个节点;节点之间的指向关系为语法关系。
在S3的步骤中,对语义树的解析具体如下:
节点之间的依赖有传递和组合关系。例如节点A和节点B之间可以传递,节点B和节点C之间可以传递,那么节点A和节点B的组合和节点C之间也可以传递。
示例1
以语音请求的文本内容为“进入打开蓝牙页面”为例,对语义树解析后的结果包括:
['进入','打开','蓝牙','页面']
['v','v','n','n']
['HED','ATT','VOB','VOB']
从节点文本“蓝牙”、“打开”和“页面”之间的传递关系,可以知道[“打开”,“蓝牙”]的组合和“页面”有传递关系。因为“ATT”代表“打开”是“页面”的定语,那么[“打开”,“蓝牙”]就可以整体理解为是“页面”的定语,即“页面”具体是指“(可以)打开蓝牙(功能)”的“(设置)页面”。
示例2
以语音请求的文本内容为“你说完了么打开空调”为例,对语义树解析后的结果包括:
['你','说完','了','么','打开','空调']
['r','v','ul','y','v','n']
['SBV','HED','RAD','RAD','COO','VOB']
[2,0,2,2,2,5]
由于“打开”这个词跟2号节点“说完”是一个COO并列关系,而同时2号节点是树的根,因此可以理解“打开”节点所处的位置是另外一句的开始,也就是另外一个子树的开始。同时由于“空调”跟“打开”是动宾关系,所以提取出来的实体对就是[“打开”,“空调”],而不会把“打开”这个词跟前句的实体词做组合。
进一步地,S3的步骤包括:
S31,使用预设提取规则对语义树进行解析;
S32,根据解析结果进行实体词聚合处理后提取实体对。
相应地,解析模块包括:
语义树解析单元,用于使用预设提取规则对语义树进行解析;
聚合单元,用于根据解析结果进行实体词聚合处理后提取实体对。
S31和S32这两个步骤都可以由解析模块作为动作主体来执行,也可以由模块中的单元来分别执行。即语义树解析单元作为S31这个步骤的动作执行主体,聚合单元作为S32这个步骤的动作执行主体。
在S31的步骤中,语义树解析单元使用预设提取规则对语义树进行解析,本发明预设的提取规则包括但不限于主谓关系实体提取、动宾关系实体提取、动补关系实体提取、介宾关系实体提取、并列关系实体提取、定语关系实体提取、副词修饰关系实体提取在内的任意一种或多种预设提取规则,也可以根据实际需求,利用中文语法设置其他提取规则,在此不做限制。
以提取规则为使用主谓关系实体提取为例,对于语音请求的文本内容为“蓝牙开关在哪里”,对语义树解析后的结果包括:
['蓝牙开关','在哪里',]
['n','r']
['SBV','HED']
[2,0]
完成实体词聚合后,输出提取的实体对是<蓝牙开关,在哪里>。
以提取规则为使用介宾关系实体提取为例,对于语音请求的文本内容为“把蓝牙开关打开”,对语义树解析后的结果包括:
['把','蓝牙开关','打开']
['p','n','v']
['ADV','POB','HED']
[3,1,0]
完成实体词聚合后,输出提取的实体对是<蓝牙开关,打开>。
对于语音请求的文本内容为“导航去肥仔烧排骨”为例,按照提取规则进行句法分析后,可以获悉“排骨”作为“导航去”的宾语;“肥仔”是“烧”的主语;"烧"是"排骨"的定语。在实体词聚合完成依赖关系传导后,也就是定语传导的规则,可以将“肥仔烧排骨”聚合到一个实体上,而非三个实体。进而提取出实体对<导航去,肥仔烧排骨>。
类似地,以语音请求的文本内容为“让导航播报音量向左拖动为百分之五十”为例,按照提取规则进行句法分析后,可以获悉“让”和“导航播报音量”之间是介宾关系,“向左拖动”是语义树的树根,“向左拖动”和“为”是动补关系,“为”和“百分之五十”是介宾关系,在实体词聚合完成依赖关系传导后,也就是依据介宾关系实体提取和动补关系实体提取,可以提取出实体对<导航播报音量,向左拖动,百分之五十>。
综上所述,S3的步骤是使用规则过滤的方法把语义树做句法分析和实体词聚合的处理,以便提取出合理的组合实体对。
在S4这个步骤中,由预测模块利用提取的实体对使用预训练模型来预测实体之间的关系。预训练是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练模型主要有三个:ELMo,OpenAI GPT和BERT。
以BERT为例,BERT在预训练过程中有两个任务,第一个是随机遮掩一句话中的某些词,来预测这些词出现的概率,这种随机遮掩方法假定词之间相互独立,例如“导航去肥仔烧排骨”,显然“肥仔烧排骨”中几个词之间的关系比跟“导航”更密切;预训练的第二个任务是预测两句话中下一句话是否有关系,在车载环境中用户跟车载语音系统之间的表达,往往缺乏传统对话中合理的上下文连续性。例如“你刚才说到哪里了,小P把空调打开”。
以语音请求的文本内容为“进入打开蓝牙页面”为例,提取完实体后结果为:[“进入”,“打开”,“蓝牙”,“页面”]。如果要预测动作和实体之间的关系,排列组合后的关系是:
[“进入”,“蓝牙”]
[“进入”,“页面”]
[“打开”,“蓝牙”]
[“打开”,“页面”]
[“进入”,“打开”]
[“蓝牙”,“页面”]
在传统方式中,这些实体对的随机排列组合会直接传入神经网络,对于模型训练来说直接增加了很多无用的工作量,并且不得不预测<打开,页面><进入,蓝牙>这样的错误的负样本。
但是经过了S2和S3两个步骤,由于定语传递组合的关系,在S3的步骤中最终提取的是<进入,打开蓝牙页面>这样的实体对。那么在训练阶段标注数据的时候可以定义:
<e1>进入</e1><e2>打开蓝牙页面</e2>
上面体现的是进入页面意图;
而在预测阶段,经过同样的语法解析提取后,构造的样本也是:
<e1>进入</e1><e2>打开蓝牙页面</e2>
类似地,其他示例如下表3所示:
查询 标签
<e1>导航去</e1><e2>肥仔烧排骨</e2> 导航地址意图
<e1>蓝牙开关</e1><e2>在哪里</e2> 查询页面意图
小P你好帮帮忙<e1>放一首</e1><e2>青花瓷</e2> 播放音乐意图
也就是说,在S2这个步骤句法分析并构造语义树之后,加上S3步骤中解析语义树并提取实体对的处理,将原本实体对的随机排列组合进行了过滤和提取,而且提取的实体对更能反映关键的实体关系。再利用预训练模型对提取的实体对进行预测,获取准确的实体提取结果,进而完成NLP中实体提取和意图识别的过程,再通过在S5的步骤中利用TTS向车辆上的反馈语音请求的执行结果,实现了用户体验更好的语音交互。
综上所述,本发明提出的语音交互方法获得的实体对,作为实体提取模型的输入,可以减少训练样本,并能让提取的关系方向更明确。在不采用句法分析之前,对用户查询提取的实体之间是否有关系是不知道的,所以往往采用排列组合的方法,这种方法构造的训练样本数量多,且干扰大;因为句法分析的加入,让某一对实体有且只有一种关系,这样对后面的关系分类判断奠定了一个比较好;例如<打开,蓝牙><进入,页面>这是句法结构认可提取的实体对。通过句法分析中对句式结构的解析,可以把一些嵌套关系根据语法关系组合起来,从而对实体词识别的准确性;例如<导航,肥仔烧排骨>这种组合关系可以让多个有连接关系的实体词完整的结合在一起。
进一步地,同时利用预训练模型的高精度和泛化性让相同句法结构但是不同语义的数据,能通过不同的关系标签来区分。如果只依赖句式结构关系,对相同句法结构,但是不同关系的实体对不能很好的识别。例如“导航去xxx”和“听xxx”。虽然语法结构一样,但是业务上实体的关系是不同的,就需要预训练模型采用监督学习的方法来发挥作用。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种服务器,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的语音交互方法、服务器和计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的用户语音请求;
对语音请求的文本内容进行句法分析并构造语义树;
解析语义树并提取实体对;
利用提取的实体对使用预训练模型来预测实体之间的关系;
利用预测结果完成语音请求的反馈。
2.如权利要求1所述语音交互方法,其特征在于,对语音请求的文本内容进行句法分析并构造语义树,包括:
基于包括句法结构分析、依存关系分析、深层文法句法分析在内的任意一种方式对语音请求的文本内容进行句法分析并构造语义树。
3.如权利要求2所述语音交互方法,其特征在于,对语音请求的文本内容进行句法分析并构造语义树,包括:
基于依存关系分析的方式对语音请求的文本内容进行句法分析;
构造语义树,其中,语义树包括根节点和除根节点之外的其他节点,根节点和其他节点都具备节点编号、节点文本、节点指向和对应的指向关系;语义树中各个节点之间具备传递和组合关系。
4.如权利要求3所述语音交互方法,其特征在于,解析语义树并提取实体对,包括:
使用预设提取规则对语义树进行解析;
根据解析结果进行实体词聚合处理后提取实体对。
5.如权利要求4所述语音交互方法,其特征在于,使用预设提取规则对语义树进行解析,包括:
使用包括主谓关系实体提取、动宾关系实体提取、动补关系实体提取、介宾关系实体提取、并列关系实体提取、定语关系实体提取、副词修饰关系实体提取在内的任意一种或多种预设提取规则对语义树进行解析。
6.一种服务器,其特征在于,包括:
接收模块,用于接收车辆转发的用户语音请求;
构造模块,用于对语音请求的文本内容进行句法分析并构造语义树。
CN202010576786.7A 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质 Pending CN111798847A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211493085.2A CN115881121A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质
CN202010576786.7A CN111798847A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010576786.7A CN111798847A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211493085.2A Division CN115881121A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111798847A true CN111798847A (zh) 2020-10-20

Family

ID=72803755

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010576786.7A Pending CN111798847A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质
CN202211493085.2A Pending CN115881121A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211493085.2A Pending CN115881121A (zh) 2020-06-22 2020-06-22 语音交互方法、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (2) CN111798847A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527955A (zh) * 2020-12-04 2021-03-19 广州橙行智动汽车科技有限公司 一种数据处理的方法和装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212422A (ja) * 2011-03-24 2012-11-01 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20130268262A1 (en) * 2012-04-10 2013-10-10 Theysay Limited System and Method for Analysing Natural Language
US20150039295A1 (en) * 2011-12-20 2015-02-05 Alona Soschen Natural language processor
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN107943881A (zh) * 2017-11-15 2018-04-20 上海壹账通金融科技有限公司 题库生成方法、服务器及计算机可读存储介质
CN108874774A (zh) * 2018-06-05 2018-11-23 浪潮软件股份有限公司 一种基于意图理解的服务调用方法和系统
CN109033427A (zh) * 2018-08-10 2018-12-18 北京字节跳动网络技术有限公司 股票的筛选方法及装置、计算机设备及可读存储介质
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110750994A (zh) * 2019-10-23 2020-02-04 北京字节跳动网络技术有限公司 一种实体关系抽取方法、装置、电子设备及存储介质
CN110909126A (zh) * 2019-11-01 2020-03-24 深圳前海微众银行股份有限公司 一种信息查询方法及装置
CN111008272A (zh) * 2019-12-04 2020-04-14 深圳市新国都金服技术有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012212422A (ja) * 2011-03-24 2012-11-01 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20150039295A1 (en) * 2011-12-20 2015-02-05 Alona Soschen Natural language processor
US20130268262A1 (en) * 2012-04-10 2013-10-10 Theysay Limited System and Method for Analysing Natural Language
CN107943881A (zh) * 2017-11-15 2018-04-20 上海壹账通金融科技有限公司 题库生成方法、服务器及计算机可读存储介质
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108874774A (zh) * 2018-06-05 2018-11-23 浪潮软件股份有限公司 一种基于意图理解的服务调用方法和系统
CN109033427A (zh) * 2018-08-10 2018-12-18 北京字节跳动网络技术有限公司 股票的筛选方法及装置、计算机设备及可读存储介质
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110489538A (zh) * 2019-08-27 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110750994A (zh) * 2019-10-23 2020-02-04 北京字节跳动网络技术有限公司 一种实体关系抽取方法、装置、电子设备及存储介质
CN110909126A (zh) * 2019-11-01 2020-03-24 深圳前海微众银行股份有限公司 一种信息查询方法及装置
CN111008272A (zh) * 2019-12-04 2020-04-14 深圳市新国都金服技术有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘卫东: "《面向多元空间大数据的知识图谱构建及其核心特征提取方法研究》", no. 2019, pages 008 - 54 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527955A (zh) * 2020-12-04 2021-03-19 广州橙行智动汽车科技有限公司 一种数据处理的方法和装置

Also Published As

Publication number Publication date
CN115881121A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
Hou et al. Sequence-to-sequence data augmentation for dialogue language understanding
CN109410927B (zh) 离线命令词与云端解析结合的语音识别方法、装置和系统
CN106649825B (zh) 语音交互系统及其创建方法和装置
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
Mairesse et al. Stochastic language generation in dialogue using factored language models
US8874443B2 (en) System and method for generating natural language phrases from user utterances in dialog systems
EP2956931B1 (en) Facilitating development of a spoken natural language interface
CN104252533B (zh) 搜索方法和搜索装置
US10540347B2 (en) Contextual search disambiguation
JP5142720B2 (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
MacSwan Programs and proposals in codeswitching research: Unconstraining theories of bilingual language mixing
JP6676110B2 (ja) 発話文生成装置とその方法とプログラム
US20130246392A1 (en) Conversational System and Method of Searching for Information
TWI588816B (zh) 一種語言交互方法
Frederking Integrated natural language dialogue: A computational model
Gardent et al. A statistical, grammar-based approach to microplanning
Jakupović et al. Formalisation method for the text expressed knowledge
Weng et al. CHAT: a conversational helper for automotive tasks.
Bowden et al. Slugbot: Developing a computational model andframework of a novel dialogue genre
CN114138963A (zh) 基于句法分析的意图识别模型
CN111798847A (zh) 语音交互方法、服务器和计算机可读存储介质
KR20150042533A (ko) 복합 문장 분석 장치, 이를 위한 기록매체
Damljanovic Natural language interfaces to conceptual models
JP3715470B2 (ja) 応答生成装置、対話管理装置、応答生成方法および応答生成プログラムを格納するコンピュータ読み取り可能な記録媒体
KR20230050673A (ko) 자연어이해 학습 모델을 위한 학습데이터의 이중 증강 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Xiaopeng Automatic Driving Technology Co.,Ltd.

Address before: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Xiaopeng Internet of vehicles Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20201221

Address after: No.8 Songgang street, Cencun, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU XIAOPENG MOTORS TECHNOLOGY Co.,Ltd.

Address before: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Xiaopeng Automatic Driving Technology Co.,Ltd.

TA01 Transfer of patent application right