CN114254111A - 语音交互方法、车辆、服务器、语音系统和存储介质 - Google Patents
语音交互方法、车辆、服务器、语音系统和存储介质 Download PDFInfo
- Publication number
- CN114254111A CN114254111A CN202111569703.2A CN202111569703A CN114254111A CN 114254111 A CN114254111 A CN 114254111A CN 202111569703 A CN202111569703 A CN 202111569703A CN 114254111 A CN114254111 A CN 114254111A
- Authority
- CN
- China
- Prior art keywords
- text information
- intention
- search intention
- prediction model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000003993 interaction Effects 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 54
- 238000012360 testing method Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 19
- 238000013145 classification model Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 description 1
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语音交互方法、车辆、服务器、语音系统和存储介质。语音交互方法包括:对语音请求进行语音识别以获得文本信息;利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图;在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。上述语音交互方法、车辆、服务器、语音系统和存储介质中,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
Description
技术领域
本发明涉及语音技术,特别涉及一种语音交互方法、车辆、服务器、语音系统和计算机可读存储介质。
背景技术
在相关技术中,语音系统对用户意图的划分不精确,语音系统难以准确识别用户的意图,使得用户的语音需求得不到满足,用户体验较差。
发明内容
本发明提供一种语音交互方法、车辆、服务器、语音系统和计算机可读存储介质。
本发明的语音交互方法包括:对语音请求进行语音识别以获得文本信息;利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图;在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,所述搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述语音交互方法中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
所述语音交互方法包括:收集历史语音请求;对所述历史语音请求进行语音识别以获得历史文本信息,所述历史文本信息包括有效历史文本信息和无效历史文本信息;去除所述无效历史文本信息;利用所述有效历史文本信息对预训练模型进行训练以获得更新模型。
如此,能够结合用户的历史语音请求和预训练模型得到更新模型,既利用了强大的预训练技术,也贴合了用户的使用习惯,使得更新模型效果更佳。
所述有效历史文本信息标注有所述泛化地址搜索意图或非泛化地址搜索意图,所述有效历史文本信息包括第一训练集、第一验证集和第一测试集;所述语音交互方法包括:利用所述更新模型、所述第一训练集和所述第一验证集训练第一分类模型以获得所述意图预测模型;利用所述第一测试集测试所述意图预测模型。
如此,可以利用有效历史文本信息训练获得意图预测模型。
所述泛化地址搜索意图的有效历史文本信息标注有历史搜索意图类别,所述泛化地址搜索意图的有效历史文本信息包括第二训练集、第二验证集和第二测试集;所述语音交互方法包括:利用所述更新模型、所述第二训练集和所述第二验证集训练第二分类模型以获得所述细分意图预测模型;利用所述第二测试集测试所述细分意图预测模型。
如此,可以利用泛化地址搜索意图的有效历史文本信息训练获得细分意图预测模型。
所述文本信息包括有效文本信息和无效文本信息,所述语音交互方法包括:去除所述无效文本信息;对所述有效文本信息进行校正以得到校正文本信息;所述利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,包括:利用所述意图预测模型识别所述校正文本信息以判断所述校正文本信息是否为所述泛化地址搜索意图。
如此,能够去除无效文本信息和对有效文本信息进行校正,从而便于后续意图预测模型更加快速、准确地判断用户意图。
所述利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,包括:利用所述意图预测模型识别所述文本信息以获得所述文本信息为所述泛化地址搜索意图的判别概率;在所述判别概率大于第一预设概率的情况下,确定所述文本信息为所述泛化地址搜索意图;在所述判别概率小于所述第一预设概率的情况下,确定所述文本信息为非泛化地址搜索意图。
如此,能够通过泛化地址搜索意图的判别概率确定文本信息是否为泛化地址搜索意图。
所述在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,包括:在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息以获得所述文本信息为每种所述搜索意图类别的预测概率;确定所有所述预测概率中的最大预测概率;在所述最大预测概率大于第二预设概率的情况下,确定所述文本信息的搜索意图类别为所述最大预测概率对应的搜索意图类别。
如此,能够通过搜索意图类别的预测概率确定文本信息的搜索意图类别。
本发明的车辆包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现上述任意一种实施方式的语音交互方法的步骤。
上述车辆中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
本发明的服务器包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现上述任意一种实施方式的语音交互方法的步骤。
上述服务器中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
本发明的语音系统包括车辆和服务器。所述车辆用于采集语音请求;所述服务器用于:接收所述车辆传输的所述语音请求并对所述语音请求进行语音识别以获得文本信息,利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,所述搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述语音系统中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
本发明的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一种实施方式的语音交互方法。
上述计算机可读存储介质中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1和图2是本发明的语音交互方法的流程示意图;
图3是本发明的车辆的示意图;
图4是本发明的语音系统的示意图;
图5至图11是本发明的语音交互方法的流程示意图;
图12是本发明的车辆与计算机可读存储介质连接的示意图。
主要元件符号说明:
语音系统10、车辆12、服务器14、处理器101、存储器102、计算机可读存储介质50。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在相关技术中,语音系统对用户意图的划分不精确,语音系统难以准确识别用户的意图,使得用户的语音需求得不到满足,用户体验较差。例如,语音系统并未对用户点线面搜索需求进行精确的区分,并未对用户点线面的细分意图进行识别,从而使得用户的语音需求得不到满足,用户体验较差。
请参阅图1和图2,本发明的语音交互方法包括:
012:对语音请求进行语音识别以获得文本信息;
014:利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图;
016:在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
请参阅图3和图4,本发明的语音交互方法可以应用于本发明的车辆12或服务器14,其中,当语音交互方法应用于车辆12时,车辆12的麦克风可以接收用户的语音请求,然后语音请求可以转发至车辆12的处理器101进行处理;当语音交互方法应用于服务器14时,车辆12的麦克风可以接收用户的语音请求,然后语音请求可以转发至服务器14的处理器101进行处理,服务器14可以将语音请求的处理结果转发至车辆12,车辆12和服务器14形成语音系统10。当然,本发明的车辆12和服务器14也可以配合实现本发明的语音交互方法,即本发明的语音交互方法的部分步骤可以由车辆12实现,另外部分步骤可以由服务器14实现,在此不做具体限定。
语音请求可以为原始音频元件,对语音请求进行语音识别(Automatic SpeechRecognition,ASR)可以获得文本信息。
利用意图预测模型识别文本信息,从而可以判断文本信息是否为泛化地址搜索意图。泛化地址搜索意图是指用户在车辆12行驶过程中的目的地是泛化的地址,“帮忙找一下附近的还在营业的快餐店,最好便宜一些的”,“帮我导航到某某公园旁边免费的停车场”,而不是一个明确的地点或者其他非地址搜索意图(例如音乐播放、天气查询等),下文将明确的地点搜索意图和其他非地址搜索意图统称为非泛化地址搜索意图。
在文本信息为泛化地址搜索意图的情况下,可以利用细分意图预测模型进一步识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。其中,第一类搜索意图可以为点的搜索意图,例如“导航到某某大学”,此处“某某大学”为一个“点”。第二类搜索意图可以为线的搜索意图,例如“找一下某某路上的免费充电桩”,此处“某某路”即为一条“线”。第三类搜索意图可以为面的搜索意图,例如“帮我找下某某区的医院”,此处“某某区”为一个“面”。当然,第一类搜索意图也可以为线或面的搜索意图,第二类搜索意图也可以为点或面的搜索意图,第三类搜索意图也可以为点或线的搜索意图,在此不再赘述。本发明以第一类搜索意图为点的搜索意图、第二类搜索意图为线的搜索意图、第三类搜索意图为面的搜索意图为例进行说明。
搜索意图类别可以是第一类搜索意图、第二类搜索意图和第三类搜索意图中的单独一个类别,也可以是第一类搜索意图、第二类搜索意图和第三类搜索意图中的至少两个意图的交叉意图,例如搜索意图类别是第一类搜索意图和第三类搜索意图的交叉意图,在此不做具体限定。
步骤012、步骤014和步骤016可以视作语音交互方法的在线流程,其中,在线流程是指应用意图预测模型、细分意图预测模型的过程。训练和测试意图预测模型、细分意图预测模型的过程可以视作语音交互方法的离线流程。
上述语音交互方法中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
在利用细分意图预测模型进一步识别文本信息的搜索意图类别后,可以将具体的搜索意图类别发送给下游服务,下游服务例如为地图服务器,地图服务器可以根据具体的搜索意图类别进行搜索。
请参阅图5和图6,语音交互方法包括:
022:收集历史语音请求;
024:对历史语音请求进行语音识别以获得历史文本信息,历史文本信息包括有效历史文本信息和无效历史文本信息;
026:去除无效历史文本信息;
028:利用有效历史文本信息对预训练模型进行训练以获得更新模型。
如此,能够结合用户的历史语音请求和预训练模型得到更新模型,既利用了强大的预训练技术,也贴合了用户的使用习惯,使得更新模型效果更佳。
具体地,为了保护用户隐私,可以在用户允许的基础上,收集历史语音请求,其中,历史语音请求可以是从不同车辆收集。为了提升更新模型、意图预测模型和细分意图预测模型的训练效果,收集的历史语音请求的数量可以超过1万条,可以理解,收集的历史语音请求的数量越多,可以使得训练效果越好;收集的历史语音请求的数量越少,可以使得训练速度更快。对历史语音请求进行语音识别后获得历史文本信息,其中,历史文本信息包括有效历史文本信息和无效文本信息,因此,可以对历史文本信息进行筛选,具体可以为:筛选掉无效历史文本信息,例如明显语义不明确的历史文本信息,以及一些只包含语气词,比如“啊”,“哦”等较短的历史文本信息,留下语义明确同时包含具体目的的历史文本信息,比如“导航到某某大学”,“帮我打开空调”,“搜一下附近的医院”,“播放周某某的歌曲”,“今天天气怎么样”等。利用保留的有效历史文本信息可以对预训练模型进行训练,其中,预训练模型可以为开源的预训练模型,例如bert模型、sbert模型、nezha模型等,结合有效历史文本信息进行训练后,可以使得训练后的预训练模型的权重能够更加好地拟合车载情况下用户口语化严重的场景,然后输出新版权重的预训练模型以作为更新模型。
请参阅图6和图7,有效历史文本信息标注有泛化地址搜索意图或非泛化地址搜索意图,有效历史文本信息包括第一训练集、第一验证集和第一测试集;语音交互方法包括:
032:利用更新模型、第一训练集和第一验证集训练第一分类模型以获得意图预测模型;
034:利用第一测试集测试意图预测模型。
如此,可以利用有效历史文本信息训练获得意图预测模型。
具体地,可以对有效历史文本信息进行人工标注,标注的目标是是<0,1>,其中0代表为非泛化地址搜索意图,1代表为泛化地址搜索意图,为了提升训练效果,有效历史文本信息的有效标注量可以大于8000,并可以将6000条有效历史文本信息划分为第一训练集,将1000条有效历史文本信息划分为第一验证集,将1000条有效历史文本信息划分为第一测试集。利用更新模型对第一训练集和第一验证集进行预处理,预处理后的第一训练集和第一验证集能够用于对第一分类模型进行训练,其中,第一分类模型可以是深度学习模型,例如卷积神经网络(Convolutional Neural Networks,CNN)等。训练过程可以在服务器14的GPU中进行加速训练,利用服务器14的GPU的强大处理能力能够提高训练速度。训练完成后第一分类模型可以输出作为意图预测模型,利用第一测试集对意图预测模型进行测试以验证意图预测模型的效果,如果意图预测模型通过测试,则可以在在线流程中利用通过测试的意图预测模型识别文本信息;如果意图预测模型没通过测试,则可以增加有效历史文本信息的数据量并再进行训练直至通过测试。
请参阅图6和图8,泛化地址搜索意图的有效历史文本信息标注有历史搜索意图类别,泛化地址搜索意图的有效历史文本信息包括第二训练集、第二验证集和第二测试集;语音交互方法包括:
036:利用更新模型、第二训练集和第二验证集训练第二分类模型以获得细分意图预测模型;
038:利用第二测试集测试细分意图预测模型。
如此,可以利用泛化地址搜索意图的有效历史文本信息训练获得细分意图预测模型。
具体地,可以对泛化地址搜索意图的有效历史文本信息进行细分意图的人工标注,标注的目标是是<0,1,2,3>,其中0代表第一类搜索意图,1代表第二类搜索意图,2代表第三类搜索意图,3代表交叉意图。为了提升训练效果,泛化地址搜索意图的有效历史文本信息的有效标注量可以大于预设标注量,并可以将泛化地址搜索意图的有效历史文本信息划分为第二训练集、第二验证集和第二测试集。利用更新模型对第二训练集和第二验证集进行预处理,预处理后的第二训练集和第二验证集能够用于对第二分类模型进行训练,其中,第二分类模型可以是深度学习模型,例如卷积神经网络(Convolutional NeuralNetworks,CNN)等。训练过程可以在服务器14的GPU中进行加速训练,利用服务器14的GPU的强大处理能力能够提高训练速度。训练完成后第二分类模型可以输出作为细分意图预测模型,利用第二测试集对细分意图预测模型进行测试以验证细分意图预测模型的效果,如果细分意图预测模型通过测试,则可以在在线流程中利用通过测试的细分意图预测模型识别文本信息的搜索意图类别;如果细分意图预测模型没通过测试,则可以增加泛化地址搜索意图的有效历史文本信息的数据量并再进行训练直至通过测试。
请参阅图2和图9,文本信息包括有效文本信息和无效文本信息,语音交互方法包括:
042:去除无效文本信息;
044:对有效文本信息进行校正以得到校正文本信息;
利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图(步骤014),包括:
0142:利用意图预测模型识别校正文本信息以判断校正文本信息是否为泛化地址搜索意图。
如此,能够去除无效文本信息和对有效文本信息进行校正,从而便于后续意图预测模型更加快速、准确地判断用户意图。
具体地,文本信息包括有效文本信息和无效文本信息,因此,可以对文本信息进行筛选,具体可以为:筛选掉无效文本信息,例如明显语义不明确的文本信息,以及一些只包含语气词,比如“啊”,“哦”等较短的文本信息,留下语义明确同时包含具体目的的文本信息,比如“导航到某某大学”,“帮我打开空调”,“搜一下附近的医院”,“播放周某某的歌曲”,“今天天气怎么样”等。在实际应用场景中,由于车辆12的硬件限制、网络不稳定型,用户口语化或者方言化等原因导致文本信息不够清晰准确,因此可以对有效文本信息进行校正,例如进行一些常规文本纠错,比如“导航到附近的没事”纠正为“导航到附近的美食”等。校正获得校正文本信息后,可以利用意图预测模型识别校正文本信息以判断校正文本信息是否为泛化地址搜索意图。
请参阅图10,利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图(步骤014),包括:
0144:利用意图预测模型识别文本信息以获得文本信息为泛化地址搜索意图的判别概率;
0146:在判别概率大于第一预设概率的情况下,确定文本信息为泛化地址搜索意图;
0148:在判别概率小于第一预设概率的情况下,确定文本信息为非泛化地址搜索意图。
如此,能够通过泛化地址搜索意图的判别概率确定文本信息是否为泛化地址搜索意图。
具体地,使用意图预测模型识别文本信息后,可以给出<0,1>两个类别上的判别概率,如果判别为1的概率超过第一预设概率(例如为0.9),那么可以认为文本信息为泛化地址搜索意图,可以进一步利用细分意图预测模型识别文本信息的搜索意图类别;其他情况可以认为文本信息为非泛化地址搜索意图,即,可能为明确的地点搜索意图或者其他非地址搜索意图(例如音乐播放、天气查询等),因此可以采用其他方案来进一步识别,在此不做具体限定。
请参阅图11,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别(步骤016),包括:
0162:在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息以获得文本信息为每种搜索意图类别的预测概率;
0164:确定所有预测概率中的最大预测概率;
0166:在最大预测概率大于第二预设概率的情况下,确定文本信息的搜索意图类别为最大预测概率对应的搜索意图类别。
如此,能够通过搜索意图类别的预测概率确定文本信息的搜索意图类别。
具体地,在文本信息为泛化地址搜索意图的情况下,使用细分意图预测模型进行细分意图的判别,并挑选最大预测概率对应的搜索意图类别作为候选类别,判断最大预测概率是否超过第二预设概率(例如为0.9),若是,那么文本信息的搜索意图类别即为最大预测概率对应的搜索意图类别(候选类别),若否,那么可以认为文本信息的搜索意图类别没有既定的细分意图,只返回文本信息为泛化地址搜索意图,不返回搜索意图类别。
请参阅图3,本发明的车辆12包括一个或多个处理器101和存储器102,存储器102存储有计算机程序,计算机程序被处理器101执行的情况下,实现上述任意一种实施方式的语音交互方法的步骤。
例如,计算机程序被处理器101执行的情况下,可以实现:
012:对语音请求进行语音识别以获得文本信息;
014:利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图;
016:在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述车辆12中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
请参阅图4,本发明的服务器14包括一个或多个处理器101和存储器102,存储器102存储有计算机程序,计算机程序被处理器101执行的情况下,实现上述任意一种实施方式的语音交互方法的步骤。
例如,计算机程序被处理器101执行的情况下,可以实现:
012:对语音请求进行语音识别以获得文本信息;
014:利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图;
016:在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述服务器14中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
请参阅图4,本发明的语音系统10包括车辆12和上述任意一种实施方式的服务器14。车辆12用于采集语音请求。服务器14用于:接收车辆12传输的语音请求并对语音请求进行语音识别以获得文本信息,利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述语音系统10中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
请参阅图12,本发明的计算机可读存储介质50,其上存储有计算机程序,计算机程序被处理器101执行时实现上述任意一种实施方式的语音交互方法。
例如,计算机程序被处理器101执行时可以实现:
012:对语音请求进行语音识别以获得文本信息;
014:利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图;
016:在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
上述计算机可读存储介质50中,先利用意图预测模型识别文本信息以判断文本信息是否为泛化地址搜索意图,在文本信息为泛化地址搜索意图的情况下,利用细分意图预测模型识别文本信息的搜索意图类别,从而确定文本信息是属于第一类搜索意图、第二类搜索意图还是第三类搜索意图,因此能够准确地识别用户的意图以满足用户的语音请求。
在本发明中,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。存储器102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器101可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种语音交互方法,其特征在于,所述语音交互方法包括:
对语音请求进行语音识别以获得文本信息;
利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图;
在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,所述搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
2.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
收集历史语音请求;
对所述历史语音请求进行语音识别以获得历史文本信息,所述历史文本信息包括有效历史文本信息和无效历史文本信息;
去除所述无效历史文本信息;
利用所述有效历史文本信息对预训练模型进行训练以获得更新模型。
3.根据权利要求2所述的语音交互方法,其特征在于,所述有效历史文本信息标注有所述泛化地址搜索意图或非泛化地址搜索意图,所述有效历史文本信息包括第一训练集、第一验证集和第一测试集;所述语音交互方法包括:
利用所述更新模型、所述第一训练集和所述第一验证集训练第一分类模型以获得所述意图预测模型;
利用所述第一测试集测试所述意图预测模型。
4.根据权利要求3所述的语音交互方法,其特征在于,所述泛化地址搜索意图的有效历史文本信息标注有历史搜索意图类别,所述泛化地址搜索意图的有效历史文本信息包括第二训练集、第二验证集和第二测试集;所述语音交互方法包括:
利用所述更新模型、所述第二训练集和所述第二验证集训练第二分类模型以获得所述细分意图预测模型;
利用所述第二测试集测试所述细分意图预测模型。
5.根据权利要求1所述的语音交互方法,其特征在于,所述文本信息包括有效文本信息和无效文本信息,所述语音交互方法包括:
去除所述无效文本信息;
对所述有效文本信息进行校正以得到校正文本信息;
所述利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,包括:
利用所述意图预测模型识别所述校正文本信息以判断所述校正文本信息是否为所述泛化地址搜索意图。
6.根据权利要求1所述的语音交互方法,其特征在于,所述利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,包括:
利用所述意图预测模型识别所述文本信息以获得所述文本信息为所述泛化地址搜索意图的判别概率;
在所述判别概率大于第一预设概率的情况下,确定所述文本信息为所述泛化地址搜索意图;
在所述判别概率小于所述第一预设概率的情况下,确定所述文本信息为非泛化地址搜索意图。
7.根据权利要求1所述的语音交互方法,其特征在于,所述在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,包括:
在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息以获得所述文本信息为每种所述搜索意图类别的预测概率;
确定所有所述预测概率中的最大预测概率;
在所述最大预测概率大于第二预设概率的情况下,确定所述文本信息的搜索意图类别为所述最大预测概率对应的搜索意图类别。
8.一种车辆,其特征在于,所述车辆包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现权利要求1-7任一项所述的语音交互方法的步骤。
9.一种服务器,其特征在于,所述服务器包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现权利要求1-7任一项所述的语音交互方法的步骤。
10.一种语音系统,其特征在于,所述语音系统包括:
车辆,所述车辆用于采集语音请求;
服务器,所述服务器用于:接收所述车辆传输的所述语音请求并对所述语音请求进行语音识别以获得文本信息,利用意图预测模型识别所述文本信息以判断所述文本信息是否为泛化地址搜索意图,在所述文本信息为所述泛化地址搜索意图的情况下,利用细分意图预测模型识别所述文本信息的搜索意图类别,所述搜索意图类别包括第一类搜索意图、第二类搜索意图和第三类搜索意图。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569703.2A CN114254111A (zh) | 2021-12-21 | 2021-12-21 | 语音交互方法、车辆、服务器、语音系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111569703.2A CN114254111A (zh) | 2021-12-21 | 2021-12-21 | 语音交互方法、车辆、服务器、语音系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254111A true CN114254111A (zh) | 2022-03-29 |
Family
ID=80793598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111569703.2A Pending CN114254111A (zh) | 2021-12-21 | 2021-12-21 | 语音交互方法、车辆、服务器、语音系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254111A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662555A (zh) * | 2023-07-28 | 2023-08-29 | 成都赛力斯科技有限公司 | 一种请求文本处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-21 CN CN202111569703.2A patent/CN114254111A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662555A (zh) * | 2023-07-28 | 2023-08-29 | 成都赛力斯科技有限公司 | 一种请求文本处理方法、装置、电子设备及存储介质 |
CN116662555B (zh) * | 2023-07-28 | 2023-10-20 | 成都赛力斯科技有限公司 | 一种请求文本处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105359200B (zh) | 用于处理车辆的测量数据以用于确定开始寻找停车位的方法 | |
US8554473B2 (en) | Energy efficient routing using an impedance factor | |
Jafarnejad et al. | Towards a real-time driver identification mechanism based on driving sensing data | |
CN109101475B (zh) | 出行语音识别方法、系统和计算机设备 | |
US10339398B2 (en) | Method and device for recognizing traffic signs | |
CN107705793B (zh) | 基于声纹识别的信息推送方法、系统及其设备 | |
CN112307978B (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
US10444027B2 (en) | Parking lot entrance recognition method and system | |
US10497256B1 (en) | Method, apparatus, and system for automatic evaluation of road closure reports | |
CN113706220A (zh) | 用户画像确定、用户需求预测方法以及数据处理系统 | |
CN114254111A (zh) | 语音交互方法、车辆、服务器、语音系统和存储介质 | |
CN112634488A (zh) | 行程融合方法、装置以及车辆 | |
CN113945222B (zh) | 道路信息的识别方法、装置、电子设备、车辆及介质 | |
CN114255755A (zh) | 语音交互方法、车辆、服务器、语音系统和存储介质 | |
CN112347768B (zh) | 一种实体识别方法及装置 | |
CN116310442A (zh) | 轨迹点识别方法、装置及地图制作方法 | |
CN114387967A (zh) | 语音交互方法、车辆、服务器和存储介质 | |
CN114242059A (zh) | 语音交互方法、车辆、服务器、语音系统和存储介质 | |
US20200143269A1 (en) | Method and Apparatus for Determining a Travel Destination from User Generated Content | |
CN111582563B (zh) | 一种个体行程时间短期预测方法、系统、装置及存储介质 | |
US20200191596A1 (en) | Apparatus and method for servicing personalized information based on user interest | |
CN114242060A (zh) | 语音交互方法、车辆、服务器和存储介质 | |
US11821748B2 (en) | Processing apparatus and method for determining road names | |
CN114440919A (zh) | 语音导航方法、设备、存储介质及装置 | |
JP2012164051A (ja) | ナンバープレート文字認識装置及びナンバープレート文字認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |