CN110720104B - 一种语音信息处理方法、装置及终端 - Google Patents
一种语音信息处理方法、装置及终端 Download PDFInfo
- Publication number
- CN110720104B CN110720104B CN201780091549.8A CN201780091549A CN110720104B CN 110720104 B CN110720104 B CN 110720104B CN 201780091549 A CN201780091549 A CN 201780091549A CN 110720104 B CN110720104 B CN 110720104B
- Authority
- CN
- China
- Prior art keywords
- event
- text information
- probability
- terminal
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 52
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims description 127
- 230000011218 segmentation Effects 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 43
- 230000008569 process Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 21
- 238000013461 design Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种语音信息处理方法、装置及终端,涉及计算机技术领域,可以提高终端执行语义理解结果对应的事件的效率,并节省进行语义理解消耗的网络流量。具体方案包括:终端接收语音信息,将该语音信息转换为文本信息;获取文本信息归属于预设M个事件领域中的每个事件领域的领域概率;获取文本信息归属于N个事件领域中的每个事件领域的先验概率,N≤M;获取文本信息归属于N个事件领域中的每个事件领域的置信度;根据文本信息归属于N个事件领域中的每个事件领域的领域概率、先验概率和置信度,计算文本信息分别归属于N个事件领域的N个概率值;输出根据N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。
Description
本申请要求于2017年10月09日提交中国专利局、申请号为201710931504.9、申请名称为“一种语音信息处理方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种语音信息处理方法、装置及终端。
背景技术
随着电子技术的发展,智能终端的功能越来越多,如终端可以为用户提供语音对话功能,即终端可以接收用户输入的语音信息(如“打开地图应用”),对该语音信息进行语义理解,然后执行语义理解结果对应的事件(开启终端中的地图应用,如百度地图)。
一般而言,由于终端的处理能力有限,终端可以将接收的语音信息发送至云端服务器,由云端服务器对该语音信息进行语义理解,得到语义理解结果;然后,云端服务器可以指示终端执行语义理解结果对应的事件。
但是,在上述语音识别的过程中,需要终端与云端服务器进行至少两次数据交互,而终端与云端服务器的数据交互可能会因为网络故障等原因,造成终端不能及时执行语义理解结果对应的事件。并且,由于语音信息的数据量一般较大,因此会消耗大量的网络流量。
发明内容
本申请实施例提供一种语音信息处理方法、装置及终端,可以节省由云端服务器进行语义理解时消耗的网络流量。
第一方面,本申请实施例提供一种语音信息处理方法,该语音信息处理方法包括:终端接收语音信息,将该语音信息转换为文本信息;该终端中预设M个事件领域;获取上述文本信息归属于M个事件领域中的每个事件领域的领域概率,上述文本信息归属于一个事件领域的领域概率用于表征该文本信息归属于该事件领域的可能性;获取上述文本信息归属于N个事件领域中的每一个事件领域的先验概率,上述文本信息归属于一个事件领域的先验概率用于表征根据已进行的多次语义理解,确定该文本信息归属于该事件领域的概率,上述N个事件领域为上述M个事件领域中的N个事件领域,N小于或等于M;获取上述文本信息归属于上述N个事件领域中的每个事件领域的置信度,上述文本信息归属于一个事件领域的置信度用于表征上述文本信息归属于该事件领域的确信程度;根据上述文本信息归属于上述N个事件领域中的每个事件领域的领域概率、先验概率和置信度,计算上述文本信息分别归属于所述N个事件领域的N个概率值;输出根据上述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。可选的,所述输出根据上述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果,可以被替换为:将根据上述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果作为最终的语义理解结果。
其中,文本信息归属于一个事件领域的先验概率:用于表征历史数据中,文本信息归属于该事件领域的概率;文本信息归属于一个事件领域的领域概率:用于表征该文本信息归属于该事件领域的可能性;文本信息归属于一个事件领域的置信度:用于表征该文本信息归属于该事件领域的确信程度。本申请实施例在选择处理文本信息的事件领域时,不仅参考了对文本信息中包括的词汇进行分析得到的领域概率,还参考了文本信息归属于事件领域的先验概率,以及用于表征该文本信息归属于该事件领域的确信程度的置信度;因此,可以提高选择的事件领域的准确性,进而可以提高语义理解结果的准确性,从而可以提高终端执行事件与用户输入的语音信息指示终端执行的事件的符合度,可以提高用户体验。
在一种可能的设计方法中,当N小于M时,上述N个事件领域是上述预设M个事件领域中,领域概率按照由高至低的顺序排列在前N位的N个事件领域,N≥2。具体的,终端可以按照领域概率由高至低的顺序,从上述M个事件领域中选择出领域概率排列在前N位的事件领域。
可以理解,终端从M个事件领域中选择出N个事件领域后,只需要计算上述文本信息归属于上述N个事件领域的先验概率和置信度,而不需要计算文本信息归属于M个事件领域中所有事件领域的先验概率和置信度,可以减少终端进行语音信息处理时的计算量,提高计算效率。
在另一种可能的设计方法中,在上述终端获取所述文本信息归属于M个事件领域中的每个事件领域的领域概率之后,本申请实施例的方法还包括:终端在上述N个事件领域,分别对上述文本信息进行语义理解,得到N个语义理解结果。
其中,终端在对文本信息进行领域识别后,可以将文本信息传输至识别到的事件领域的对话引擎,由对话引擎对该文本信息进行语义理解,得到语义理解结果。或者,本实施例可以不限定终端进行领域识别和语义理解的顺序,可以同时或基本同时进行领域识别和语义理解,也可以先进行语义理解后进行领域识别。
在另一种可能的设计方法中,上述M个事件领域中的每个事件领域对应于一个关键字模型,该关键字模型中包括:对应事件领域的多个关键字。具体的,上述终端获取上述文本信息归属于上述N个事件领域中的每个事件领域的置信度,可以包括:终端对所述文本信息进行分词处理,并提取至少一个分词;获取该至少一个分词对应的关键字在上述每个事件领域的关键字模型中的分布信息;根据该分布信息,计算上述文本信息归属于上述N个事件领域中的每个事件领域的置信度。
在另一种可能的设计方法中,上述终端获取上述文本信息归属于M个事件领域中的每个事件领域的领域概率,包括:终端对上述文本信息进行分词处理,并提取至少一个分词;从上述每个事件领域对应的数据库模型中查找上述至少一个分词对应的特征,上述数据库模型中包括多个特征、每个特征的权重及每个特征对应的分词,上述权重用于指示上述权重对应的特征归属于上述数据库模型中对应的事件领域的概率;其中,每个事件领域对应一个数据库模型;根据从上述每个事件领域对应的数据库模型中查找到的特征的权重,计算上述文本信息归属于上述每个事件领域的领域概率。
其中,在上述特征数据库中,同一分词在不同事件领域的数据库模型中的特征相同,即在特征数据库中,分词的特征可以唯一标识该分词。但是,同一分词在不同事件领域中的权重不同。
在另一种可能的设计方法中,上述M个事件领域中的每个事件领域对应于一个关键字模型,上述关键字模型中包括:多个关键字和每个关键字指示文本信息归属于上述关键字模型对应的事件领域的概率。上述终端获取上述文本信息归属于M个事件领域中的每个事件领域的领域概率,包括:从上述文本信息中识别至少一个关键字;从上述每个事件领域对应的关键字模型中获取上述至少一个关键字分别指示的概率;根据上述至少一个关键字分别指示的概率,计算上述文本信息归属于上述每个事件领域的领域概率。
其中,由于至少一个关键字中可能包括各个事件领域的关键字模型中的关键字,而每个关键字在不同的事件领域的关键字模型中,可以指示上述文本信息归属于对应事件领域的概率;因此,根据文本信息中包括的各个事件领域的关键字所指示的概率,可以计算得到文本信息归属于各个事件领域的领域概率。
在另一种可能的设计方法中,本申请实施例的方法还可以包括:上述终端输出上诉后语义理解结果之后,根据上述语义理解结果,执行语义理解结果对应的操作。
第二方面,本申请实施例提供一种语音信息处理装置,该语音信息处理装置包括:接收单元、转换单元、第一获取单元、第二获取单元、第三获取单元、计算单元和输出单元。其中,上述接收单元,用于接收语音信息。上述转换单元,用于将上述接收单元接收的上述语音信息转换为文本信息;上述终端中预设M个事件领域。上述第一获取单元,用于获取上述转换单元转换得到的上述文本信息归属于M个事件领域中的每个事件领域的领域概率,上述领域概率用于表征上述文本信息归属于一个事件领域的可能性。上述第二获取单元,用于获取上述转换单元转换得到的上述文本信息归属于上述N个事件领域中的每一个事件领域的先验概率,上述先验概率用于表征根据已进行的多次语义理解,确定上述文本信息归属于一个事件领域的概率,上述N个事件领域为上述M个事件领域中的N个事件领域,N小于或等于M。上述第三获取单元,用于获取上述转换单元转换得到的上述文本信息归属于上述N个事件领域中的每个事件领域的置信度,上述置信度用于表征上述文本信息归属于一个事件领域的确信程度。上述计算单元,用于根据上述第一获取单元获取的上述文本信息归属于上述N个事件领域中的每个事件领域的领域概率、上述第二获取单元获取的先验概率和上述第三获取单元获取的置信度,计算上述文本信息分别归属于上述N个事件领域的N个概率值。上述输出单元,用于输出根据上述计算单元计算得到的上述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。
在一种可能的设计方法中,当N小于M时,上述N个事件领域是上述预设M个事件领域中,领域概率按照由高至低的顺序排列在前N位的N个事件领域,N≥2。
在另一种可能的设计方法中,上述语音信息处理装置还包括:语义理解单元。该语义理解单元,用于在上述第一获取单元获取上述文本信息归属于M个事件领域中的每个事件领域的领域概率之后,在上述N个事件领域,分别对上述文本信息进行语义理解,得到N个语义理解结果。
在另一种可能的设计方法中,上述语音信息处理装置还包括:存储单元。该存储单元,用于保存上述M个事件领域中的每个事件领域对应的关键字模型,上述关键字模型中包括:对应事件领域的多个关键字。上述第三获取单元,具体用于:对上述文本信息进行分词处理,并提取至少一个分词;获取上述至少一个分词对应的关键字在上述存储单元保存的上述每个事件领域的关键字模型中的分布信息;根据上述分布信息,计算上述文本信息归属于上述N个事件领域中的每个事件领域的置信度。
在另一种可能的设计方法中,上述第一获取单元,具体用于:对上述文本信息进行分词处理,并提取至少一个分词;从上述每个事件领域对应的数据库模型中查找上述至少一个分词对应的特征,上述数据库模型中包括多个特征、每个特征的权重及每个特征对应的分词,上述权重用于指示上述权重对应的特征归属于上述数据库模型中对应的事件领域的概率;其中,每个事件领域对应一个数据库模型;根据从上述每个事件领域对应的数据库模型中查找到的特征的权重,计算上述文本信息归属于上述每个事件领域的领域概率。
在另一种可能的设计方法中,上述语音信息处理装置还包括:存储单元。该存储单元,用于保存上述M个事件领域中的每个事件领域对应的关键字模型,上述关键字模型中包括:多个关键字和每个关键字指示文本信息归属于上述关键字模型对应的事件领域的概率。上述第一获取单元,具体用于:从上述文本信息中识别至少一个关键字;从上述每个事件领域对应的关键字模型中获取上述至少一个关键字分别指示的概率;根据上述至少一个关键字分别指示的概率,计算上述文本信息归属于上述每个事件领域的领域概率。
在另一种可能的设计方法中,上述语音信息处理装置还包括:执行单元。该执行单元,用于在上述输出单元输出上述语义理解结果之后,根据上述语义理解结果,执行上述语义理解结果对应的操作。
第三方面,本申请实施例提供一种终端,该终端包括:一个或多个处理器;一个或多个存储器,所述一个或多个存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述终端执行如第一方面及其任一种可能的设计方法所述的语音信息处理方法。
第四方面,本申请实施例提供一种电子设备,所述电子设备包括执行如第一方面及其任一种可能的设计方法所述的语音信息处理方法的装置。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如第一方面及其任一种可能的设计方法所述的语音信息处理方法。
第六方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当所述指令在电子设备上运行时,使得所述电子设备执行如第一方面及其任一种可能的设计方法所述的语音信息处理方法。
可以理解地,上述提供的第二方面所述的装置、第三方面所述的终端、第四方面所述的电子设备,第五方面所述计算机程序产品,以及第六方面所述的计算机存储介质均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种终端的硬件结构示意图;
图2为本申请实施例提供的一种用于进行语音信息处理的架构示意图;
图3为本申请实施例提供的一种语音信息处理方法流程图一;
图4为本申请实施例提供的一种语音信息处理方法流程图二;
图5为本申请实施例提供的一种语音信息处理方法的语义理解结果的历史记录示意图;
图6为本申请实施例提供的一种语音信息处理方法流程图三;
图7为本申请实施例提供的一种关键字数据库的实例示意图一;
图8为本申请实施例提供的一种语音信息处理方法的执行过程实例示意图一;
图9为本申请实施例提供的一种关键字数据库的实例示意图二;
图10为本申请实施例提供的一种语音信息处理方法流程图四;
图11为本申请实施例提供的一种语音信息处理方法流程图五;
图12为本申请实施例提供的一种特征数据库的实例示意图一;
图13为本申请实施例提供的一种特征数据库的实例示意图二;
图14为本申请实施例提供的一种语音信息处理方法的执行过程实例示意图二;
图15为本申请实例提供的一种语音信息处理装置的结构组成示意图一;
图16为本申请实例提供的一种语音信息处理装置的结构组成示意图二;
图17为本申请实例提供的一种终端的结构组成示意图。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例提供一种语音信息处理方法及终端,可以应用于终端与用户进行语音对话的过程中。具体应用于终端接收用户输入的语音信息,对该语音信息进行语义理解,并执行语义理解结果对应的事件的过程中。例如用户通过语音控制终端的过程中。
其中,本申请实施例中对语音信息进行语义理解可以包括:将语音信息转换为文本信息,然后分析该文本信息,识别出该文本信息所指示终端所执行的事件。例如,当终端接收到用户输入的语音信息“提醒我22:00打开飞行模式”时,终端可以将该语音信息转换成文本信息“提醒我22:00打开飞行模式”,然后识别出该文本信息所指示终端执行的事件为“在22:00向用户发出“打开飞行模式”的提醒”,而非直接“打开飞行模式”。
常规方案在上述语音识别的过程中,会出现以下问题:终端与云端服务器的数据交互可能会因为网络故障等原因,造成终端不能及时执行语义理解结果对应的事件;由于语音信息的数据量一般较大,常规方案会消耗大量的网络流量。为了解决常规方案中的问题,本申请实施例提供的语音信息处理方法,可以由终端执行上述语义理解。
一般而言,终端在执行上述语义理解时,只是简单的对转换得到的文本信息中包括的词汇进行分析,确定出该文本信息所归属的一个事件领域,即判断出该文本信息所归属的事件领域,然后由该文本信息所归属的事件领域的对话引擎,采用该事件领域的语义理解算法对该文本信息进行语义理解,然后执行语义理解结果对应的事件。
但是,存在的问题是,简单的对文本信息中包括的词汇进行分析,确定出的事件领域可能并不准确;由不准确的事件领域的对话引擎,采用该不准确的事件领域的语义理解算法对该文本信息进行语义理解,得到的语义理解结果也不准确。由此,则可能会导致终端执行的语义理解结果对应的事件,与用户输入的语音信息指示终端执行的事件不同,影响用户体验。
本申请实施例中,为了在提高终端执行语义理解结果对应的事件的效率,节省由云端服务器进行语义理解时消耗的网络流量的同时,提高终端对语音信息进行语义理解的准确性,可以在将语音信息转换为文本信息后,根据终端进行语义理解的历史数据,获取该文本信息归属于每个事件领域的先验概率;文本信息归属于一个事件领域的先验概率用于表征历史数据中,文本信息归属于该事件领域的概率。然后,分析该文本信息,获取所述文本信息归属于每个事件领域的领域概率;该文本信息归属于一个事件领域的领域概率用于表征该文本信息归属于该事件领域的可能性。随后,终端可以计算文本信息归属于每个事件领域的置信度;文本信息归属于一个事件领域的置信度用于表征该文本信息归属于该事件领域的确信程度。其次,终端可以根据上述文本信息归属于一个事件领域的先验概率、领域概率和置信度,计算该文本信息归属于该事件领域的概率值;进而得到该文本信息归属于每个事件领域的概率值。最后,终端可以将概率值最高的事件领域的对话引擎对该文本信息进行语义理解,得到的语义理解结果作为该文本信息(即上述语音信息)的语义理解结果,终端可以执行该语义理解结果对应的事件。
其中,由于本申请实施例在选择处理文本信息的事件领域时,不仅参考了对文本信息中包括的词汇进行分析得到的领域概率,还参考了文本信息归属于事件领域的先验概率,以及用于表征该文本信息归属于该事件领域的确信程度的置信度;因此,可以提高选择的事件领域的准确性,进而可以提高语义理解结果的准确性,从而可以提高终端执行事件与用户输入的语音信息指示终端执行的事件的符合度,可以提高用户体验。
其中,本申请实施例中的终端可以是允许用户通过输入语音信息指示终端执行相关操作事件的手机(如图1所示的手机100)、平板电脑、个人计算机(Personal Computer,PC)、个人数字助理(personal digital assistant,PDA)、智能手表、上网本、可穿戴电子设备等,本申请实施例对该设备的具体形式不做特殊限制。
其中,本申请实施例中文本信息所归属的事件领域是指对该文本信息进行语义理解后,语义理解结果所指示终端执行的事件所归属的领域。例如,本申请实施例中的事件领域可以包括音乐领域、设置领域、应用程序(Application,APP)领域等。举例来说,“播放歌曲a”和“播放下一曲”等文本信息归属于音乐领域,“调低屏幕亮度”和“打开飞行模式”等文本信息归属于设置领域,“打开微信”和“地图导航至A街道10号”等文本信息归属于APP领域。
如图1所示,以手机100作为上述终端举例,手机100具体可以包括:处理器101、射频(Radio Frequency,RF)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、Wi-Fi装置107、定位装置108、音频电路109、外设接口110以及电源装置111等部件。这些部件可通过一根或多根通信总线或信号线(图1中未示出)进行通信。本领域技术人员可以理解,图1中示出的硬件结构并不构成对手机的限定,手机100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对手机100的各个部件进行具体的介绍:
处理器101是手机100的控制中心,利用各种接口和线路连接手机100的各个部分,通过运行或执行存储在存储器103内的应用程序,以及调用存储在存储器103内的数据,执行手机100的各种功能和处理数据。在一些实施例中,处理器101可包括一个或多个处理单元。在本申请实施例一些实施例中,上述处理器101还可以包括指纹验证芯片,用于对采集到的指纹进行验证。
射频电路102可用于在收发信息或通话过程中,无线信号的接收和发送。特别地,射频电路102可以将基站的下行数据接收后,给处理器101处理;另外,将涉及上行的数据发送给基站。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频电路102还可以通过无线通信和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。
存储器103用于存储应用程序以及数据,处理器101通过运行存储在存储器103的应用程序以及数据,执行手机100的各种功能以及数据处理。存储器103主要包括存储程序区以及存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等);存储数据区可以存储根据使用手机100时所创建的数据(比如音频数据、电话本等)。此外,存储器103可以包括高速随机存取存储器(RAM),还可以包括非易失存储器,例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统,例如,操作系统,操作系统等。上述存储器103可以是独立的,通过上述通信总线与处理器101相连接;存储器103也可以和处理器101集成在一起。
触摸屏104具体可以包括触控板104-1和显示器104-2。
其中,触控板104-1可采集手机100的用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触控板104-1上或在触控板104-1附近的操作),并将采集到的触摸信息发送给其他器件(例如处理器101)。其中,用户在触控板104-1附近的触摸事件可以称之为悬浮触控;悬浮触控可以是指,用户无需为了选择、移动或拖动目标(例如图标等)而直接接触触控板,而只需用户位于设备附近以便执行所想要的功能。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型来实现触控板104-1。
显示器(也称为显示屏)104-2可用于显示由用户输入的信息或提供给用户的信息以及手机100的各种菜单。可以采用液晶显示器、有机发光二极管等形式来配置显示器104-2。触控板104-1可以覆盖在显示器104-2之上,当触控板104-1检测到在其上或附近的触摸事件后,传送给处理器101以确定触摸事件的类型,随后处理器101可以根据触摸事件的类型在显示器104-2上提供相应的视觉输出。虽然在图1中,触控板104-1与显示屏104-2是作为两个独立的部件来实现手机100的输入和输出功能,但是在某些实施例中,可以将触控板104-1与显示屏104-2集成而实现手机100的输入和输出功能。可以理解的是,触摸屏104是由多层的材料堆叠而成,本申请实施例实施例中只展示出了触控板(层)和显示屏(层),其他层在本申请实施例实施例中不予记载。另外,触控板104-1可以以全面板的形式配置在手机100的正面,显示屏104-2也可以以全面板的形式配置在手机100的正面,这样在手机的正面就能够实现无边框的结构。
另外,手机100还可以具有指纹识别功能。例如,可以在手机100的背面(例如后置摄像头的下方)配置指纹识别器112,或者在手机100的正面(例如触摸屏104的下方)配置指纹识别器112。又例如,可以在触摸屏104中配置指纹采集器件112来实现指纹识别功能,即指纹采集器件112可以与触摸屏104集成在一起来实现手机100的指纹识别功能。在这种情况下,该指纹采集器件112配置在触摸屏104中,可以是触摸屏104的一部分,也可以以其他方式配置在触摸屏104中。本申请实施例实施例中的指纹采集器件112的主要部件是指纹传感器,该指纹传感器可以采用任何类型的感测技术,包括但不限于光学式、电容式、压电式或超声波传感技术等。
手机100还可以包括蓝牙装置105,用于实现手机100与其他短距离的设备(例如手机、智能手表等)之间的数据交换。本申请实施例实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。
手机100还可以包括至少一种传感器106,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节触摸屏104的显示器的亮度,接近传感器可在手机100移动到耳边时,关闭显示器的电源。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
无线保真(Wireless Fidelity,Wi-Fi)装置107,用于为手机100提供遵循Wi-Fi相关标准协议的网络接入,手机100可以通过Wi-Fi装置107接入到Wi-Fi接入点,进而帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。在其他一些实施例中,该Wi-Fi装置107也可以作为Wi-Fi无线接入点,可以为其他设备提供Wi-Fi网络接入。
定位装置108,用于为手机100提供地理位置。可以理解的是,该定位装置108具体可以是全球定位系统(Global Positioning System,GPS)或北斗卫星导航系统、俄罗斯GLONASS等定位系统的接收器。定位装置108在接收到上述定位系统发送的地理位置后,将该信息发送给处理器101进行处理,或者发送给存储器103进行保存。在另外的一些实施例中,该定位装置108还可以是辅助全球卫星定位系统(Assisted Global PositioningSystem,AGPS)的接收器,AGPS系统通过作为辅助服务器来协助定位装置108完成测距和定位服务,在这种情况下,辅助定位服务器通过无线通信网络与设备例如手机100的定位装置108(即GPS接收器)通信而提供定位协助。在另外的一些实施例中,该定位装置108也可以是基于Wi-Fi接入点的定位技术。由于每一个Wi-Fi接入点都有一个全球唯一的媒体访问控制(Media Access Control,MAC)地址,设备在开启Wi-Fi的情况下即可扫描并收集周围的Wi-Fi接入点的广播信号,因此可以获取到Wi-Fi接入点广播出来的MAC地址;设备将这些能够标示Wi-Fi接入点的数据(例如MAC地址)通过无线通信网络发送给位置服务器,由位置服务器检索出每一个Wi-Fi接入点的地理位置,并结合Wi-Fi广播信号的强弱程度,计算出该设备的地理位置并发送到该设备的定位装置108中。
音频电路109、扬声器113、麦克风114可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号,传输到扬声器113,由扬声器113转换为声音信号输出;另一方面,麦克风114将收集的声音信号转换为电信号,由音频电路109接收后转换为音频数据,再将音频数据输出至RF电路102以发送给比如另一手机,或者将音频数据输出至存储器103以便进一步处理。
外设接口110,用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线(Universal Serial Bus,USB)接口与鼠标连接,通过用户识别模块卡卡槽上的金属触点与电信运营商提供的用户识别模块卡(Subscriber Identification Module,SIM)卡进行连接。外设接口110可以被用来将上述外部的输入/输出外围设备耦接到处理器101和存储器103。
在本发明实施例中,手机100可通过外设接口110与设备组内的其他设备进行通信,例如,通过外设接口110可接收其他设备发送的显示数据进行显示等,本发明实施例对此不作任何限制。
手机100还可以包括给各个部件供电的电源装置111(比如电池和电源管理芯片),电池可以通过电源管理芯片与处理器101逻辑相连,从而通过电源装置111实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,手机100还可以包括摄像头(前置摄像头和/或后置摄像头)、闪光灯、微型投影装置、近场通信(Near Field Communication,NFC)装置等,在此不再赘述。
图2为本申请实施例提供的一种用于进行语音信息处理的架构示意图,该架构位于终端中。如图2所示,该架构包括中控层201、对话引擎层202和算法层203。
其中,中控层201包括:语音服务接口(Voice Service Interface,VSI)2011、领域识别模块2012、调度分发模块2013和汇总决策(Decision Summary,DS)模块2014。
对话引擎层202中包括至少两个对话引擎。例如,如图2所示,对话引擎层202中包括对话引擎1、对话引擎2和对话引擎3。
算法层203包括:“模型和算法库”2031、规则(Rule)库2032、兴趣点(Points OfInterests,POI)库2033和状态模型2034。
中控层201用于通过VSI 2011接收语音信息(如从第三方应用接收语音信息),然后将接收到语音信息传输至领域识别模块2012。
请参考图2和图3,领域识别模块2012用于将接收到的语音信息转换为文本信息,并对该文本信息进行初步领域识别,识别出该文本信息可能的至少两个事件领域,然后将识别结果传输至调度分发模块2013;其中,领域识别模块2012可以调度算法层203中的“模型和算法库”2031、规则(Rule)库2032、POI库2033和状态模型2034,对上述文本信息进行领域识别。
其中,“模型和算法库”2031中可以包括多个算法(也称之为模型),这多个算法用于支持领域识别模块2012和对话引擎层202中的对话引擎(如对话引擎1)对文本信息进行分析。举例来说,如图2所示,算法层203中的“模型和算法库”2031中包括:逻辑回归/支持向量机(Logistic Regression/Support Vector Machine,LR/SVM)算法、词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法、N-Gram/WS(WordSegment、分词)算法、语义角色标注(Semantic Role Label,SRL)算法、词性标注(Part ofSpeech,POS)算法、命名实体识别(Named Entity Recognition,NER)算法、条件随机场(Conditional Random Field,CRF)算法、统计机器翻译(Statistic MachineTranslation、SMT)算法、深度强化学习网络(Deep Reinforce learning Network,DRN)算法、卷积/循环神经网络(Convolution/Recurrent Neural Net,C/RNN)算法和长短记忆网络(Long Short Term Memory,LSTM)算法等算法。其中,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,可以称之为汉语语言模型(Chinese Language Model,CLM)。该汉语语言模型可以利用语音信息的上下文中相邻词间的搭配信息,可以实现语音信息到汉字(即文本信息)的自动转换。
算法层203中的Rule库2032中可以包括归属于各个事件领域的文本信息的语义理解规则。例如,如图2所示,Rule库2032可以包括归属于APP领域的文本信息的语义理解规则、归属于设置领域的文本信息的语义理解规则和归属于音乐领域的文本信息的语义理解规则等。其中,Rule库2032中一个事件领域的语义理解规则可以用于指示对归属于该事件领域的文本信息进行语义理解时,从“模型和算法库”2031中要调用的算法。举例来说,Rule库2032中APP领域的语义理解规则可以用于指示对归属于APP领域的文本信息进行语义理解时,可以从“模型和算法库”中调用LR/SVM算法和F-IDF算法。
以导航领域为例,POI库2033可以是包括使用Rule库2032中的规则的对象名称(如餐馆名称、学校名称等)、对象地址(如餐馆地址、学校地址等)、经纬度、类别(如学校、餐馆、政府机关、商场)等信息的数据集合。例如,POI库2033中可以包括Rule库2032中归属于音乐领域的文本信息的语义理解规则中的歌手和歌曲等。其中,POI库2033中按照不同的地址可以维护多个数据集合;或者,按照不同的类别可以维护多个数据集合。
状态模型2034是对话引擎层202中的对话引擎管理对话状态的模型,该状态模型2034可以是自定义的模型,如确定性模型,概率模型,马尔科夫模型等。状态模型2034可以在终端与用户对话过程中,提供不同对话状态之间的转移。例如,概率模型是指用户输入语音信息后,该语音信息对应的文本信息归属于导航领域的概率值大于预设值,则输入在导航领域对文本信息进行语义理解的结果。
其中,调度分发模块2013用于将上述文本信息分发给上述识别结果所指示的至少两个事件领域所对应的对话引擎(如对话引擎1),由对应的对话引擎分别对该文本信息进行自然语言理解(Natural Language Understanding,NLU)、对话管理(DialogueManagement,DM)和自然语言处理(Natural Language Process,NLP)(即对话生成),以得到上述文本信息在对应领域的语音理解结果。
如图2所示,对话引擎层202中的每个对话引起对应于一个事件领域。例如,对话引擎1对应于设置领域,对话引擎2对应于APP领域,对话引擎3对应于音乐领域。以对话引擎1为例,各个事件领域的对话引擎中都可以包括:NLU模块、DM模块和NLP模块,用于对文本信息进行语义理解,得到语音理解结果。其中,各个对话引擎可以调用算法层203中的模型和算法库2031、Rule库2032、POI库2033中与该对话引擎对应的模型、算法和规则等,对上述文本信息进行语义理解。
随后,各个对话引擎可以将其得到的语义理解结果传输至DS模块2014,由DS模块2014执行本申请实施例中的方法步骤,从上述多个对话引擎反馈的语义理解结果中,选择出文本信息的归属概率值最高的事件领域对应的语义理解结果(即如图3所示,最优的语义理解结果),然后将选择出的语义理解结果作为上述文本信息的语义理解结果,通过上述VSI接口反馈该语义理解结果。
可以理解,图2所示的中控层201和对话引擎层,以及一部分算法层203的功能可以集成在图1所示的手机100的处理器101中实现,图2所示的算法层203中的算法和规则等信息可以保存在图1所示的手机100的存储器103中。即图2所示的用于进行语音信息处理的架构可以位于图1所示的手机100中。
本申请实施例提供一种语音信息处理方法,如图4所示,该语音识别方法包括S401-S406:
S401、终端接收语音信息,将该语音信息转换为文本信息;该终端中预设M个事件领域。
本申请实施例中,终端可以在接收到语音信息后,调用图2所示的算法层203中用于进行语音文本转换的算法(如N-Gram/WS算法),将语音信息转换为文本信息。或者,终端还可以通过调用语音文本转换(voice-to-text,speech-to-text)程序,将语音信息转换为文本信息。本申请实施例中,对将该语音信息转换为文本信息的具体方式不作限定。其中,终端接收的语音信息,一般指的是用户发出的语音;即用户发出语音,然后终端接收到该语音后,执行后续的动作。
其中,终端中可以预设M个事件领域,如音乐领域、设置领域、应用程序APP领域等。其中,M≥2。
S402、终端获取文本信息归属于M个事件领域中的每个事件领域的领域概率,该领域概率用于表征文本信息归属于一个事件领域的可能性。
其中,终端可以通过图2所示的中控层201中的领域识别模块2012,调用算法层203中用于对文本信息进行语义语法分析的算法,获取文本信息归属于N个事件领域中的各个事件领域的领域概率。其中,文本信息归属于一个事件领域的领域概率越高,该文本信息归属于该事件领域的可能性则越高。
可选的,终端可以在执行S402之后,终端可以从上述M个事件领域中获取文本信息对应的N个事件领域。具体的,如图4所示,在S402之后,本申请的方法还可以包括S402′:
S402′、终端从上述M个事件领域中获取文本信息对应的N个事件领域。
需要说明的是,终端在执行S402之后,如果执行S402′从上述M个事件领域中获取文本信息对应的N个事件领域,那么本申请实施例中的N个事件领域则是上述M个事件领域中的部分事件领域,N<M。在这种情况下,上述N个事件领域是上述预设M个事件领域中,领域概率按照由高至低的顺序排列在前N位的N个事件领域,N≥2。即终端在执行S402后,可以按照领域概率由高至低的顺序,从上述M个事件领域中选择出领域概率排列在前N位的事件领域。示例性的,假设终端中预先有4个事件领域(即M=4):事件领域1、事件领域2、事件领域3和事件领域4,N=3。其中,上述文本信息归属于事件领域1的领域概率为50%,上述文本信息归属于事件领域2的领域概率为25%,上述文本信息归属于事件领域3的领域概率为10%,上述文本信息归属于事件领域4的领域概率为15%。由于50%>25%>15%>10%;因此,终端可以从上述事件领域1-事件领域4中选择出领域概率按照由高至低的顺序排列在前3位的3个事件领域,即事件领域1、事件领域2和事件领域4。
如此,终端在执行S403-S405时,只需要计算上述文本信息归属于上述N个事件领域的先验概率和置信度,而不需要计算文本信息归属于M个事件领域中所有事件领域的先验概率和置信度,可以减少终端进行语音信息处理时的计算量,提高计算效率。
当然,在本申请实施例中S402′是可选的,终端也可以不执行S402′,在这种情况下,本申请实施例中的N个事件领域即上述M个事件领域,N=M。
本申请中,无论N=M或者N<M,在S402或者S402′之后,本申请的方法都可以包括S403-S406:
S403、终端获取上述文本信息归属于所述N个事件领域中的每一个事件领域的先验概率,该先验概率用于表征根据已进行的多次语义理解,确定上述文本信息归属于一个事件领域的概率,该N个事件领域为M个事件领域中的N个事件领域,N小于或等于M。
其中,一个事件领域的先验概率用于表征根据已进行的多次语义理解,确定该文本信息归属于该事件领域的概率。终端可以根据以往进行多次语义理解的历史数据,分别获取上述文本信息归属于上述N个事件领域中的每一个事件领域的先验概率。
示例性的,本申请这里以终端获取上述文本信息归属于上述N个事件领域中的第一事件领域的先验概率为例,对终端获取上述文本信息归属于N个事件领域中的各个事件领域的先验概率的方法进行举例说明。其中,第一事件领域可以是上述N个事件领域中的任一事件领域。
在一种可能的实现方式中,终端可以统计该终端进行语义理解的总次数X;统计X次语义理解中、指示终端执行的事件归属于上述第一事件领域的语义理解结果的个数y;计算语义理解结果的个数y与语义理解的总次数X的比值y/X,该y/X是第一事件领域的先验概率。其中,终端统计的语义理解的总次数X是指终端已进行过的所有语义理解的总次数。此处的“所有语义理解”并不限定语义理解的对象,即包括终端对任意文本信息进行的语义理解。
举例来说,假设终端中预先设置了三个事件领域,如音乐领域、设置领域和APP领域。该终端进行语义理解的总次数为P(即X=P),这P次语义理解中,a个语义理解结果指示终端执行的事件归属于音乐领域(简称音乐领域的语义理解),b次语义理解结果指示终端执行的事件归属于设置领域(简称设置领域的语义理解),c次语义理解结果指示终端执行的事件归属于APP领域(简称APP领域的语义理解),a+b+c=P。那么,终端可以确定待处理的文本信息(如文本信息K)归属于音乐领域的先验概率为a/P,文本信息K归属于设置领域的先验概率为b/P,文本信息K归属于APP领域的先验概率为c/P。
一般而言,终端进行的相邻两次语义理解的对象(即文本信息)归属于同一事件领域的可能性较高,或者前一次语义理解的对象归属于一个事件领域,可能会影响后一次语义理解的对象归属于哪一事件领域产生影响。例如,在用户使用手机导航的场景中,手机前一次接收用户输入的语音信息可以是“导航”,随后,该手机接收到用户输入的语音信息是“去x街道100号”或者其他地点信息的可能性较高。其中,“导航”和“去x街道100号”都可以归属于上述APP领域,用于指示手机调用地图APP执行相应事件。
基于上述现象,在一种可能的实现方式中,终端获取文本信息K归属于上述N个事件领域中的每一个事件领域的先验概率时,如果前一次语义理解的对象归属于事件领域A。那么,终端则可以确定文本信息K归属于事件领域A的先验概率为a,a>0.5,文本信息K归属于其他任一事件领域的先验概率均为(1-a)/(N-1)。
示例性的,假设N=3,上述N个事件领域包括音乐领域、设置领域和APP领域;前一次语义理解的对象归属于音乐领域。那么终端则可以确定文本信息K归属于音乐领域的先验概率为0.8,文本信息K归属于设置领域的先验概率为(1-0.8)/(3-1)=0.1,文本信息K归属于APP领域的先验概率也为0.1。
基于上述现象,在另一种可能的实现方式中,终端在计算文本信息K归属于第一事件领域(如事件领域P)的先验概率时,可以参考终端前一次进行语义理解的文本信息所归属的事件领域(记为事件领域Q),然后统计该终端已进行过的所有语义理解中,相邻两次的被语义理解的文本信息依次归属于事件领域Q和事件领域P的概率(即按照时间先后顺序,事件领域Q在前,事件领域P在后),并将该概率确定为该文本信息K归属于第一事件领域(如事件领域P)的先验概率。
举例来说,假设终端中预先设置了三个事件领域,如音乐领域、设置领域和APP领域,该终端共进行过Y次语义理解。并且,如图5所示,这Y次语义理解的语义理解结果指示终端执行的事件所归属的事件领域依次为:设置领域、APP领域、设置领域、音乐领域、音乐领域、设置领域、APP领域、设置领域......设置领域。
假设本次语义理解(对文本信息K进行语义理解)的前一次语义理解是设置领域的语义理解。如图5所示,终端统计上述Y次语义理解中,设置领域的语义理解的次数P。终端获取这P次设置领域的语义理解中,每次设置领域相邻的后一次语义理解对应的事件领域;统计出前一次语义理解是设置领域、相邻的后一次语义理解是设置领域的次数为a,前一次语义理解是设置领域、相邻的后一次语义理解是音乐领域的次数为b,前一次语义理解是设置领域、相邻的后一次语义理解是APP领域的次数为c,a+b+c=P。那么,终端可以确定文本信息K归属于设置领域的先验概率为a/P,文本信息K归属于音乐领域的先验概率为b/P,文本信息K归属于APP领域的先验概率为c/P。其中,本实施例中出现的前一次、后一次,指的是根据时间的先后顺序,先发生的为前一次,后发生的为后一次。
需要说明的是,本申请实施例中,终端获取文本信息归属于上述N个事件领域中的每个事件领域的先验概率的方法包括但不限于上述方法,终端获取文本信息归属于每个事件领域的先验概率的其他方法,本申请实施例这里不再赘述。
S404、终端获取上述文本信息归属于上述N个事件领域中的每个事件领域的置信度,该置信度用于表征上述文本信息归属于一个事件领域的确信程度。
本申请实施例中,终端可以针对上述M个事件领域中的每一个事件领域,保存一个关键字模型,每一个事件领域的关键字模型中包括该事件领域的多个关键字,该多个关键字是该事件领域中常用的词语和短句等。终端可以对上述文本信息进行分词处理,并提取至少一个分词,然后根据该至少一个分词对应的关键字在上述多个事件领域的关键字模型中的分布情况,计算该文本信息归属于该预设多个事件领域中每个事件领域的置信度。具体的,如图6所示,图4所示的S404可以包括S404a-S404c:
S404a、终端对上述文本信息进行分词处理,并提取至少一个分词。
其中,终端可以通过图2所示的中控层201中的领域识别模块2011,调用算法层203对文本信息进行分词处理,并提取至少一个分词。例如,假设上述文本信息为“播放歌手A的歌曲B”,终端可以对该文本信息进行分词处理,并提取出如下分词:“播放”、“歌手A”、“歌曲B”。假设终端在播放歌手A的歌曲的过程中,接收到文本信息“帮我调低音量”,终端可以对该文本信息进行分词处理,并提取出如下分词:“帮”、“我”、“调低”和“音量”。
S404b、终端获取上述至少一个分词对应的关键字在上述每个事件领域的关键字模型中的分布信息。
例如,本申请实施例的终端中可以维护一个如图7所示的关键字数据库701,该关键字数据库701中可以包括多个事件领域的关键字模型。假设终端中预先设置了两个事件领域,如音乐领域和设置领域。如图7所示,关键字数据库701中包括音乐领域的关键字模型702和设置领域的关键字模型703。其中,音乐领域的关键字模型702中包括音乐领域的多个关键字,如播放、下一曲、播放、歌手、摇滚和歌曲等。设置领域的关键字模型703中包括设置领域的多个关键字,如飞行模式、蓝牙、亮度、音量和调低等。
S404c、终端根据所述分布信息,计算所述文本信息归属于所述N个事件领域中的每个事件领域的置信度。
其中,文本信息归属于第一事件领域的置信度用于表征该文本信息归属于该第一事件领域的确信程度。
例如,假设文本信息1为“播放歌手A的歌曲B”,终端提取的至少一个分词为“播放”、“歌手A”和“歌曲B”。终端可以确定出分词“播放”对应的关键字播放、分词“歌手A”对应的关键字“歌手”和分词“歌曲B”对应的关键字“歌曲”,均包含在音乐领域的关键字模型702中。即终端可以确定文本信息1的所有分词对应的关键字都分布在音乐领域的关键字模型702中。在这种情况下,终端可以确定文本信息1归属于音乐领域的置信度为90%,文本信息1归属于设置领域的置信度为10%。
再例如,假设终端中预先设置了三个事件领域,如音乐领域、设置领域和APP领域。终端对文本信息2进行分词处理得到至少一个分词。当该至少一个分词对应的关键字都分布在设置领域的关键字模型中时,终端可以确定文本信息2归属于设置领域的置信度为80%,文本信息2归属于音乐领域的置信度为10%,文本信息2归属于APP领域的置信度为10%。
又例如,假设终端中预先设置了三个事件领域,如音乐领域、设置领域和APP领域。终端对文本信息3进行分词处理得到8个分词。当这8个分词中的5个分词对应的关键字分布在设置领域的关键字模型中,2个分词对应的关键字分布在音乐领域的关键字模型中,1个分词对应的关键字分布在APP领域的关键字模型中时,终端可以确定文本信息3归属于设置领域的置信度为5/8=62.5%,文本信息3归属于音乐领域的置信度为25%,文本信息3归属于APP领域的置信度为12.5%。
需要说明的是,当M=N时,本申请实施例对终端执行S402、S403和S404的先后顺序不作限制。例如,终端可以先执行S403,再执行S404,最后执行S402;或者,终端可以先执行S404,再执行S402,最后执行S404;或者,终端可以基本同时执行S402、S403和S404。
当N<M时,在S402之后,本申请的方法还可以包括S402′。在这种情况下,终端可以先执行S402,再执行S402′,最后执行S403和S404。本申请实施例对终端执行S403和S404的先后顺序不作限制。例如,终端可以先执行S403,再执行S404;或者,终端可以先执行S404,再执行S403;或者,终端可以基本同时执行S403和S404。
S405、终端根据上述文本信息归属于上述N个事件领域中的每个事件领域的领域概率、先验概率和置信度,计算上述文本信息分别归属于所述N个事件领域的N个概率值。
其中,终端可以计算文本信息归属于第一事件领域的先验概率、领域概率和置信度的乘积,将计算得到的乘积确定为该文本信息归属于第一事件领域的概率值。
示例性的,如图8所示,假设文本信息a归属于音乐领域的先验概率为40%,文本信息a归属于设置领域的先验概率为30%,文本信息a归属于APP领域的先验概率为30%;文本信息a归属于音乐领域的领域概率为40%,文本信息a归属于设置领域的领域概率为20%,文本信息a归属于APP领域的领域概率为40%;文本信息a归属于音乐领域的置信度为10%,文本信息a归属于设置领域的置信度为10%,文本信息a归属于APP领域的置信度为80%。终端可以计算得到文本信息a归属于音乐领域的概率值为40%×40%×10%=1.6%,文本信息a归属于设置领域的概率值为30%×20%×10%=0.6%,文本信息a归属于APP领域的概率值为30%×40%×80%=9.6%。
S406、终端输出根据所述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。
可选的,所述S406可以被替换为:终端将根据所述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果作为最终的语义理解结果。
对该文本信息对应的每个事件领域均执行上述步骤402-405之后,可以获取该文本信息归属于每个事件领域的概率值,即获取到多个概率值。然后终端获取最高的一个概率值对应的事件领域,即将概率值最高的事件领域识别为该文本信息对应的事件领域。其中,终端在对文本信息进行领域识别后,可以将文本信息传输至识别到的事件领域的对话引擎,由对话引擎对该文本信息进行语义理解,得到语义理解结果。或者,本实施例可以不限定终端进行领域识别和语义理解的顺序,可以同时或基本同时进行领域识别和语义理解,也可以先进行语义理解后进行领域识别。
如图8所示,音乐领域的对话引擎、设置领域的对话引擎和APP领域的对话引擎可以分别对文本信息a进行语义理解,得到语义理解结果。在进行领域识别之后,即获知到文本信息a归属于APP领域的概率值9.6%大于文本信息a归属于音乐领域的概率值1.6%,并且文本信息a归属于APP领域的概率值9.6%大于文本信息a归属于设置领域的概率值0.6%之后;终端可以输出APP领域的对话引擎对文本信息a进行语义理解得到的语义理解结果。
例如,终端在执行S402之后,S406之前,可以在N个事件领域,分别对上述文本信息进行语义理解,得到N个语义理解结果。具体的,在S402之后,S406之前,本申请实施例的方法还可以包括S406′:
S406′、终端在N个事件领域,分别对上述文本信息进行语义理解,得到N个语义理解结果。
其中,终端在N个事件领域中的每个事件领域,分别对上述文本信息进行语义理解,得到N个语义理解结果的方法,可以参考本申请上述实施例中的相关描述,本申请实施例这里不再赘述。
进一步的,终端在输出上述语义理解结果后,还可以根据该语义理解结果,执行所述语义理解结果对应的操作。具体的,在上述S406之后,本申请实施例的方法还可以包括S407:
S407、终端输出上述语义理解结果之后,终端根据上述语义理解结果,执行上述语义理解结果对应的操作。
需要说明的是,本实施例中终端将根据所述概率值最高的事件领域对文本信息进行语义理解的语义理解结果作为最终识别的语义理解结果。在确定出最终的语义理解结果之后,所述终端可以向所述终端内部输出该最终的结果,使得所述终端执行该最终结果对应的操作。可以理解的,所述的向所述终端内部输出,可以是终端确定概率值最高的最终结果的过程,也可以是终端向内部的其它部件(硬件或软件)发送最终结果,使得该最终结果对应的操作被所述终端执行。可选的,在确定出最终的语义理解结果之后,所述终端也可以向所述终端的外部输出该最终的语义理解结果,例如所述终端可以向其它终端发送该最终的结果,使得其它终端获知该最终结果,或者使得其它终端来执行该最终结果对应的动作。可选的,所述终端可以既执行该最终结果对应操作,也把该最终结果向外部输出。
本申请实施例提供一种语音信息处理方法,可以在将语音信息转换为文本信息后,根据终端进行语义理解的历史数据,获取该文本信息归属于每个事件领域的先验概率;分析该文本信息,获取所述文本信息归属于每个事件领域的领域概率;并且终端可以计算文本信息归属于每个事件领域的置信度;然后,终端根据上述文本信息归属于一个事件领域的先验概率、领域概率和置信度,计算该文本信息归属于该事件领域的概率值;最后,终端可以将概率值最高的事件领域的对话引擎对该文本信息进行语义理解,得到的语义理解结果作为该文本信息(即上述语音信息)的语义理解结果。
其中,文本信息归属于一个事件领域的先验概率:用于表征历史数据中,文本信息归属于该事件领域的概率;文本信息归属于一个事件领域的领域概率:用于表征该文本信息归属于该事件领域的可能性;文本信息归属于一个事件领域的置信度:用于表征该文本信息归属于该事件领域的确信程度。本申请实施例在选择处理文本信息的事件领域时,不仅参考了对文本信息中包括的词汇进行分析得到的领域概率,还参考了文本信息归属于事件领域的先验概率,以及用于表征该文本信息归属于该事件领域的确信程度的置信度;因此,可以提高选择的事件领域的准确性,进而可以提高语义理解结果的准确性,从而可以提高终端执行事件与用户输入的语音信息指示终端执行的事件的符合度,可以提高用户体验。
可选的,在一种可能的实现方式中,上述关键字模型中不仅可以包括多个关键字,还可以包括每个关键字指示文本信息归属于对应事件领域的概率。例如,如图9所示,关键字数据库901中包括音乐领域的关键字模型902和设置领域的关键字模型903。其中,音乐领域的关键字模型902中还可以包括:关键字“下一曲”指示文本信息归属于音乐领域的概率“概率a”、关键字“播放”指示文本信息归属于音乐领域的概率“概率b”、关键字“歌手”指示文本信息归属于音乐领域的概率“概率c”、关键字“播放”指示文本信息归属于音乐领域的概率“概率d”和关键字“歌曲”指示文本信息归属于音乐领域的概率“概率e”等。设置领域的关键字模型903中还可以包括:关键字“飞行模式”指示文本信息归属于设置领域的概率“概率1”、关键字“蓝牙”指示文本信息归属于设置领域的概率“概率2”、关键字“音量”指示文本信息归属于设置领域的概率“概率3”和关键字“调低”指示文本信息归属于设置领域的概率“概率4”等。
可以想到的是,本申请实施例中的关键字数据库,如关键字数据库701和关键字数据库901,可以保存在终端中。或者,为了减少关键字数据库对终端内存的占用,该关键字数据库也可以保存在云服务器中。终端可以从云服务器保存的关键字数据库中查找对应的关键字以及关键字所指示的概率。
其中,终端可以从上述文本信息中识别至少一个关键字;然后,根据至少一个关键字指示的概率,计算文本信息归属于每个事件领域的领域概率。具体的,上述S402可以包括S1001-S1003。例如,如图10所示,图4中的S402可以替换为S1001-S1003:
S1001、终端从所述文本信息中识别至少一个关键字。
其中,终端可以针对每一个事件领域,识别文本信息中是否包括该事件领域的关键字模型中的关键字。例如,假设终端中预先设置了两个事件领域,如音乐领域和设置领域,文本信息4为“播放下一曲时,调低歌曲的音量”。终端可以识别到该文本信息4中包括关键字“播放”、“下一曲”“调低”、“歌曲”和“音量”。其中,“播放”、“下一曲”和“歌曲”是音乐领域的关键字模型中的关键字,“调低”和“音量”是设置领域的关键字模型中的关键字。
S1002、终端从上述每个事件领域对应的关键字模型中获取上述至少一个关键字分别指示的概率。
示例性的,如图9所示,关键字“播放”指示文本信息归属于音乐领域的概率为概率b,关键字“下一曲”指示文本信息归属于音乐领域的概率为概率a,关键字“歌曲”指示文本信息归属于音乐领域的概率为概率e。如图9所示,关键字“调低”指示文本信息归属于设置领域的概率为概率4,关键字“音量”指示文本信息归属于设置领域的概率为概率3。
S1003、终端根据上述至少一个关键字分别指示的概率,计算上述文本信息归属于上述每个事件领域的领域概率。
例如,上述文本信息4归属于音乐领域的领域概率可以为概率b、概率a与概率e之和;上述文本信息4归属于设置领域的领域概率可以为概率4与概率3之和。
可选的,本申请实施例中,终端还可以对上述至少一个关键字指示的概率进行归一化,以计算得到文本信息归属于每个事件领域的领域概率。例如,上述文本信息4归属于音乐领域的领域概率可以为(概率b+概率a+概率e)/3;上述文本信息4归属于设置领域的领域概率可以为(概率4+概率3)/2。
本申请实施例中,终端可以从文本信息中识别至少一个关键字,然后根据至少一个关键字指示的概率,计算文本信息归属于每个事件领域的领域概率。其中,由于至少一个关键字中可能包括各个事件领域的关键字模型中的关键字,而每个关键字在不同的事件领域的关键字模型中,可以指示上述文本信息归属于对应事件领域的概率;因此,根据文本信息中包括的各个事件领域的关键字所指示的概率,可以计算得到文本信息归属于各个事件领域的领域概率。
可选的,在另一种可能的实现方式中,终端可以维护一个特征数据库,该特征数据库中包括上述多个事件领域的数据库模型。每个数据库模型中包括多个特征和每个特征的权重及其对应的分词,该特征的权重用于指示对应特征归属于对应事件领域的概率。终端可以针对任一事件领域,执行以下操作以计算文本信息归属于该事件领域的领域概率:对文本信息进行分词处理提取到至少一个分词,然后从该事件领域的数据库模型中查找至少一个分词对应的特征,再根据查找到的特征的权重,计算该文本信息归属于该事件领域的领域概率。具体的,上述S402可以包括S1101-S1103。例如,如图11所示,图4中的S402可以替换为S1101-S1103:
S1101、终端对文本信息进行分词处理,并提取至少一个分词。
其中,终端对文本信息进行分词处理,并提取至少一个分词的方法可以参考上述实施例中S404a中的详细描述,本申请实施例这里不再赘述。
S1102、终端从上述每个事件领域对应的数据库模型中查找上述至少一个分词对应的特征,该数据库模型中包括多个特征、每个特征的权重及每个特征对应的分词,该权重用于指示该权重对应的特征归属于上述数据库模型中对应的事件领域的概率;其中,每个事件领域对应一个数据库模型。
其中,终端可以统计上述每个事件领域中出现过的多个分词,然后为每个分词分配一个可以位于标识该分词的特征。例如,终端可以为每个分词分配一个唯一标识该分词的数字,该数字可以是十进制的数字,也可以是二进制的数字,或者该数字还可以是其他格式的数字,本申请实施例对数字的格式不做限制。然后,终端可以根据历史语义理解结果中,上述各个分词归属于各个事件领域的概率值,确定出每个分词对应的特征归属于各个事件领域的概率。
例如,如图12所示,终端可以维护特征数据库1201,该特征数据库1201中包括事件领域1的数据库模型1202和事件领域2的数据库模型1203等。其中,事件领域1的数据库模型1202中包括:特征102、特征102对应的分词a和特征102在事件领域1的权重30%;特征23、特征23对应的分词b和特征23在事件领域1的权重15%;特征456、特征456对应的分词c和特征456在事件领域1的权重26%;特征78、特征78对应的分词d和特征78在事件领域1的权重81%。事件领域2的数据库模型1203中包括:特征375、特征375对应的分词e和特征375在事件领域2的权重62%;特征102、特征102对应的分词a和特征102在事件领域2的权重40%;特征168、特征268对应的分词f和特征168在事件领域2的权重2%;特征456、特征456对应的分词c和特征456在事件领域2的权重53%。
需要说明的是,在上述特征数据库中,同一分词在不同事件领域的数据库模型中的特征相同,即在特征数据库中,分词的特征可以唯一标识该分词。但是,同一分词在不同事件领域中的权重不同。
例如,如图12所示,在事件领域1的数据库模型1202和事件领域2的数据库模型1203中,分词a的特征均为102,分词c的特征均为456。而特征102在事件领域1的权重20%,在事件领域2的权重为40%;特征456在事件领域1的权重26%,在事件领域2的权重为53%。
示例性的,以上述文本信息为“让蓝光对眼睛的辐射少一点”为例,终端对该文本信息进行分词处理,可以得到一下分词:“让”、“蓝光”、“对”、“眼睛”、“的”、“辐射”、“少”、“一点”。假设分词“让”的特征为5545、分词“蓝光”的特征为2313、分词“对”的特征为2212、分词“眼睛”的特征为9807、分词“的”的特征为44、分词“辐射”的特征为3566、分词“少”的特征为4324、分词“一点”的特征为333。终端可以确定文本信息“让蓝光对眼睛的辐射少一点”的特征模型为:5545,2313,2212,9807,44,3566,4324,333。
S1103、终端根据从所述每个事件领域对应的数据库模型中查找到的特征的权重,计算所述文本信息归属于所述每个事件领域的领域概率。
其中,终端可以针对每个事件领域执行以下操作,计算对应事件领域的领域概率:终端从任一事件领域的数据库模型中,查找上述特征模型中的每个特征在该事件领域中的权重;终端计算查找到的权重之和。其中,终端计算得到的权重之和为文本信息归属于该事件领域的领域概率。
例如,假设终端中设置了两个事件领域(如音乐领域和设置领域)。上述特征模型“5545,2313,2212,9807,44,3566,4324,333”中,特征5545在音乐领域的权重为21%,特征5545在设置领域的权重为79%;特征2313在音乐领域的权重为12%,特征5545在设置领域的权重为88%;特征2212在音乐领域的权重为69%,特征5545在设置领域的权重为31%;特征9807在音乐领域的权重为56%,特征5545在设置领域的权重为44%;特征44在音乐领域的权重为91%,特征5545在设置领域的权重为9%;特征3566在音乐领域的权重为56%,特征5545在设置领域的权重为44%;特征4324在音乐领域的权重为75%,特征5545在设置领域的权重为25%;特征333在音乐领域的权重为12%,特征5545在设置领域的权重为88%。
那么,终端可以计算得到:文本信息归属于音乐领域的领域概率为(21%+12%+69%+56%+23%+56%+75%+12%)/8=40.5%,文本信息归属于设置领域的领域概率为(79%+88%+31%+44%+77%+44%+25%+88%)/8=59.5%。
可选的,在另一种可能的实现方式中,终端可以维护一个特征数据库,该特征数据库中包括上述多个事件领域的数据库模型和一个特征关系模型。每个数据库模型中包括多个特征和每个特征的权重,该特征的权重用于指示对应特征归属于对应事件领域的概率。该特征关系模型中包括多个特征以及每个特征对应的分词。
例如,如图13所示,终端可以维护一个特征数据库1301,该特征数据库1201中包括事件领域1的数据库模型1302、事件领域2的数据库模型1303和特征关系模型1304。其中,特征关系模型1304中包括:分词a和分词a对应的特征102;分词b和分词b对应的特征23;分词c和分词c对应的特征456;分词d和分词d对应的特征78;分词e和分词e对应的特征375;......;分词f和分词f对应的特征168等。事件领域1的数据库模型1302中包括:特征102和特征102在事件领域1的权重30%;特征23和特征23在事件领域1的权重15%;特征456和特征456在事件领域1的权重26%;特征78和特征78在事件领域1的权重81%。事件领域2的数据库模型1303中包括:特征375和特征375在事件领域2的权重62%;特征102和特征102在事件领域2的权重40%;特征168和特征168在事件领域2的权重2%;特征456和特征456在事件领域2的权重53%。
其中,终端在执行S1102得到至少一个分词后,可以先从图13所示的特征关系模型1304中,查找该至少一个分词对应的特征,确定出文本信息的特征模型;然后,从事件领域1的数据库模型1302中,查找该特征模型中的特征在上述事件领域1的权重,以计算文本信息归属于事件领域1的领域概率;从事件领域2的数据库模型1303中,查找该特征模型中的特征在上述事件领域2的权重,以计算文本信息归属于事件领域2的领域概率。
需要说明的是,在执行S404a-S404c计算文本信息归属于每个事件领域的确信度时,终端执行了“对文本信息进行分词处理,并提取至少一个分词”;而在执行S1101-S1103计算文本信息归属于每个事件领域的领域概率时,终端还执行了“对文本信息进行分词处理,并提取至少一个分词”。为了避免终端重复执行了以下操作“对文本信息进行分词处理,并提取至少一个分词”,在终端执行S404a-S404c计算文本信息归属于该第一事件领域的确信度,执行S1101-S1103计算文本信息归属于第一事件领域的领域概率时,终端可以只执行S404a,不执行S1101;或者该终端可以只执行S1101,不执行S404a。
本申请实施例中提供的方法,不仅可以应用于终端与用户进行的单轮语音对话过程中,还可以应用于终端与用户进行的多轮语音对话的过程中。其中,本申请实施例中所述的单轮语音对话是指用户与终端采用一问一答的模式进行语音对话。但是,在一些场景中,当用户向终端输入一个语音信息(如语音信息a)后,在该终端还响应该语音信息a回复用户时,该用户再次输入了另一语音信息(如语音信息b)。此时,由于终端几乎同时接收到语音信息a和语音信息b,因此该终端要同时处理该语音信息a和语音信息b。例如,上述语音信息a对应的文本信息a为“我要去西藏”,上述语音信息b对应的文本信息b为“今天天气怎么样”。
其中,本申请实施例将终端接收并处理上述语音信息a和语音信息b的对话过程中,称为多轮语音对话。本申请实施例中,终端可以将上述语音信息a和语音信息b转换为文本信息,并对文本信息a和文本信息b进行语义理解。
示例性的,由于终端在接收语音信息b时,可能还未对文本信息a进行语义理解,由此,终端可以认为语音信息b的前一个语音信息和语音信息a的前一个语言信息是相同的。由于先验概率取决于前一个语音信息对应的事件领域,因此文本信息a和文本信息b归属于某一事件领域的先验概率相同。例如,如图14所示,文本信息a和文本信息b归属于音乐领域的先验概率P1均为40%,文本信息a和文本信息b归属于设置领域的先验概率P1均为30%,文本信息a和文本信息b归属于APP领域的先验概率P1均为30%。对于领域概率和置信度,可以分别对文本信息a和文本信息b进行计算。文本信息a归属于音乐领域的领域概率P2-a为40%,文本信息a归属于设置领域的领域概率P2-a为20%,文本信息a归属于APP领域的领域概率P2-a为40%;文本信息b归属于音乐领域的领域概率P2-b为20%,文本信息b归属于设置领域的领域概率P2-b为10%,文本信息b归属于APP领域的领域概率P2-b为70%。文本信息a归属于音乐领域的置信度P3-a为10%,文本信息a归属于设置领域的置信度P3-a为10%,文本信息a归属于APP领域的置信度P3-a为80%;文本信息b归属于音乐领域的置信度P3-b为60%,文本信息b归属于设置领域的置信度P3-b为30%,文本信息b归属于APP领域的置信度P3-b为10%。
其中,如图14所示,终端可以同时或基本同时计算得到:文本信息a归属于音乐领域的概率值P-a为40%×40%×10%=1.6%,文本信息a归属于设置领域的概率值P-a为30%×20%×10%=0.6%,文本信息a归属于APP领域的概率值P-a为30%×40%×80%=9.6%;文本信息b归属于音乐领域的概率值P-b为40%×20%×60%=4.8%,文本信息b归属于设置领域的概率值P-b为30%×10%×30%=0.9%,文本信息b归属于APP领域的概率值P-b为30%×70%×10%=2.1%。
如图14所示,音乐领域的对话引擎、设置领域的对话引擎和APP领域的对话引擎可以分别对文本信息a和文本信息b进行语义理解,得到语义理解结果。由于文本信息a归属于APP领域的概率值9.6%大于归属于音乐领域的概率值1.6%,也大于归属于设置领域的概率值0.6%;因此,终端可以输出APP领域的对话引擎对文本信息a进行语义理解得到的语义理解结果。由于文本信息b归属于音乐领域的概率值4.8%大于归属于APP领域的概率值2.1%,也大于归属于设置领域的概率值0.9%;因此,终端可以输出音乐领域的对话引擎对文本信息b进行语义理解得到的语义理解结果。
本申请实施例提供一种语音信息处理方法,不仅可以应用于终端与用户进行的单轮语音对话过程中,还可以应用于终端与用户进行的多轮语音对话的过程中。本申请实施例提供的方法,无论应用于终端与用户进行的单轮语音对话过程中,还是应用于终端与用户进行的多轮语音对话的过程中,都可以提高选择的事件领域的准确性,进而可以提高语义理解结果的准确性,从而可以提高终端执行事件与用户输入的语音信息指示终端执行的事件的符合度,可以提高用户体验。
可以理解的是,上述终端等为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图15示出了上述实施例中所涉及的终端中的语音信息处理装置的一种可能的结构示意图,该语音信息处理装置1500包括:接收单元1501、转换单元1502、第一获取单元1503、第二获取单元1504、第三获取单元1505、计算单元1506和输出单元1507。
其中,上述接收单元1501用于支持终端执行方法实施例中的S401中“接收语音信息”的操作,和/或用于本文所描述的技术的其它过程。
上述转换单元1502用于支持终端执行方法实施例中的S401中“将语音信息转换为文本信息”的操作,和/或用于本文所描述的技术的其它过程。
上述第一获取单元1503用于支持终端执行方法实施例中的S402、S1001-S1003、S1101-S1103,和/或用于本文所描述的技术的其它过程。
上述第二获取单元1504用于支持终端执行方法实施例中的S403,和/或用于本文所描述的技术的其它过程。
上述第三获取单元1505用于支持终端执行方法实施例中的S404、S404a-S404c,和/或用于本文所描述的技术的其它过程。
上述计算单元1506用于支持终端执行方法实施例中的S405,和/或用于本文所描述的技术的其它过程。
上述输出单元1507用于支持终端执行方法实施例中的S406,和/或用于本文所描述的技术的其它过程。
进一步的,上述语音信息处理装置1500还可以包括:语义理解单元。该语义理解单元用于支持终端执行方法实施例中的S406′,和/或用于本文所描述的技术的其它过程。
进一步的,上述语音信息处理装置1500还可以包括:存储单元。该存储单元用于保存方法实施例中所述的关键字模型和数据库模型等信息。
进一步的,上述语音信息处理装置1500还可以包括:执行单元。该执行单元用于支持终端执行方法实施例中的S407,和/或用于本文所描述的技术的其它过程。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
当然,语音信息处理装置1500包括但不限于上述所列举的单元模块,例如,如图16所示,语音信息处理装置1500还可以包括第四获取单元1508,该第四获取单元用于支持终端执行方法实施例中的S402′,和/或用于本文所描述的技术的其它过程。
并且,上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能,语音信息处理装置1500的其他单元的详细描述可以参考其所对应方法步骤的详细描述,本申请实施例这里不再赘述。
需要说明的是,上述语义理解单元可以对应于图2所示的对话引擎层202中的一个或多个对话引擎。上述转换单元1502可以对应于图2所示的领域识别模块2012。上述第一获取单元1503、第二获取单元1504、第三获取单元1505、计算单元1506的功能可以集成在图2所示的DS模块2014中实现。可以理解,上述语义理解单元、转换单元1502、第一获取单元1503、第二获取单元1504、第三获取单元1505、计算单元1506等的功能都可以集成在一个处理模块中实现,该处理模块可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。上述接收单元1501和输出单元1507可以对应于图2所示的VSI 2011。该VSI 2011可以是终端的处理器的一个接口。上述存储单元可以是用于保存图2所示的算法层203中的算法和规则等的存储模块。该存储模块可以是存储器。
在采用集成的单元的情况下,图17示出了上述实施例中所涉及的终端的一种可能的结构示意图。该终端1700包括:处理模块1701和存储模块1702。存储模块1702用于保存终端的程序代码和数据(如算法和规则等)。处理模块1701用于执行存储模块1702保存的程序代码执行方法实施例所述的语音信息处理方法。进一步的,该终端1700还可以包括通信模块1703,该通信模块1703用于支持终端与其他网络实体的通信。通信模块1703可以是收发器、收发电路或通信接口等。存储模块1702可以是存储器。
当处理模块1701为处理器(如图1所示的处理器101),通信模块1703为RF收发电路(如图1所示的射频电路102),存储模块1702为存储器(如图1所示的存储器103)时,本发明实施例所提供的终端可以为图1所示的终端100。其中,上述通信模块1703不仅可以包括射频电路,还可以包括WiFi模块和蓝牙模块。射频电路、WiFi模块和蓝牙模块等通信模块可以统称为通信接口。本申请实施例的终端中可以包括一个或多个处理器和一个或多个存储器,上述一个或多个处理器、一个或多个存储器和通信接口可以通过总线耦合在一起。
本申请实施例该提供一种电子设备,该电子设备包括上述实施例所述的用于执行上述实施例中的语音信息处理方法的语音信息处理装置1500。
本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,该电子设备执行图3、图4、图6、图10和图11中任一附图中的相关方法步骤实现上述实施例中的语音信息处理方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行图3、图4、图6、图10和图11中任一附图中的相关方法步骤实现上述实施例中的语音信息处理方法。
其中,本发明实施例提供的语音信息处理装置1500、终端1700、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (17)
1.一种语音信息处理方法,其特征在于,所述方法包括:
终端接收语音信息,将所述语音信息转换为文本信息;所述终端中预设M个事件领域;
所述终端获取所述文本信息归属于所述M个事件领域中的每个事件领域的领域概率,所述领域概率用于表征所述文本信息归属于一个事件领域的可能性;
所述终端获取所述文本信息归属于N个事件领域中的每一个事件领域的先验概率,所述先验概率用于表征根据已进行的多次语义理解,确定所述文本信息归属于一个事件领域的概率,所述N个事件领域为所述M个事件领域中的N个事件领域,N小于或等于M;
所述终端获取所述文本信息归属于所述N个事件领域中的每个事件领域的置信度,所述置信度用于表征所述文本信息归属于一个事件领域的确信程度;
所述终端根据所述文本信息归属于所述N个事件领域中的每个事件领域的领域概率、先验概率和置信度,计算所述文本信息分别归属于所述N个事件领域的N个概率值;
所述终端输出根据所述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。
2.根据权利要求1所述的方法,其特征在于,当N小于M时,所述N个事件领域是所述预设M个事件领域中,领域概率按照由高至低的顺序排列在前N位的N个事件领域,N≥2。
3.根据权利要求1所述的方法,其特征在于,在所述终端获取所述文本信息归属于M个事件领域中的每个事件领域的领域概率之后,所述方法还包括:
所述终端在所述N个事件领域,分别对所述文本信息进行语义理解,得到N个语义理解结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述M个事件领域中的每个事件领域对应于一个关键字模型,所述关键字模型中包括:对应事件领域的多个关键字;
所述终端获取所述文本信息归属于所述N个事件领域中的每个事件领域的置信度,包括:
所述终端对所述文本信息进行分词处理,并提取至少一个分词;
所述终端获取所述至少一个分词对应的关键字在所述每个事件领域的关键字模型中的分布信息;
所述终端根据所述分布信息,计算所述文本信息归属于所述N个事件领域中的每个事件领域的置信度。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述终端获取所述文本信息归属于M个事件领域中的每个事件领域的领域概率,包括:
所述终端对所述文本信息进行分词处理,并提取至少一个分词;
所述终端从所述每个事件领域对应的数据库模型中查找所述至少一个分词对应的特征,所述数据库模型中包括多个特征、每个特征的权重及每个特征对应的分词,所述权重用于指示所述权重对应的特征归属于所述数据库模型中对应的事件领域的概率;其中,每个事件领域对应一个数据库模型;
所述终端根据从所述每个事件领域对应的数据库模型中查找到的特征的权重,计算所述文本信息归属于所述每个事件领域的领域概率。
6.根据权利要求1-3中任一项所述的方法,其特征在于,所述M个事件领域中的每个事件领域对应于一个关键字模型,所述关键字模型中包括:多个关键字和每个关键字指示文本信息归属于所述关键字模型对应的事件领域的概率;
所述终端获取所述文本信息归属于M个事件领域中的每个事件领域的领域概率,包括:
所述终端从所述文本信息中识别至少一个关键字;
所述终端从所述每个事件领域对应的关键字模型中获取所述至少一个关键字分别指示的概率;
所述终端根据所述至少一个关键字分别指示的概率,计算所述文本信息归属于所述每个事件领域的领域概率。
7.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
所述终端输出所述语义理解结果之后,所述终端根据所述语义理解结果,执行所述语义理解结果对应的操作。
8.一种语音信息处理装置,其特征在于,所述装置包括:
接收单元,用于接收语音信息;
转换单元,用于将所述接收单元接收的所述语音信息转换为文本信息;包括所述语音信息处理装置的终端中预设M个事件领域;
第一获取单元,用于获取所述转换单元转换得到的所述文本信息归属于所述M个事件领域中的每个事件领域的领域概率,所述领域概率用于表征所述文本信息归属于一个事件领域的可能性;
第二获取单元,用于获取所述转换单元转换得到的所述文本信息归属于N个事件领域中的每一个事件领域的先验概率,所述先验概率用于表征根据已进行的多次语义理解,确定所述文本信息归属于一个事件领域的概率,所述N个事件领域为所述M个事件领域中的N个事件领域,N小于或等于M;
第三获取单元,用于获取所述转换单元转换得到的所述文本信息归属于所述N个事件领域中的每个事件领域的置信度,所述置信度用于表征所述文本信息归属于一个事件领域的确信程度;
计算单元,用于根据所述第一获取单元获取的所述文本信息归属于所述N个事件领域中的每个事件领域的领域概率、所述第二获取单元获取的先验概率和所述第三获取单元获取的置信度,计算所述文本信息分别归属于所述N个事件领域的N个概率值;
输出单元,用于输出根据所述计算单元计算得到的所述N个概率值中概率值最高的事件领域对文本信息进行语义理解的语义理解结果。
9.根据权利要求8所述的装置,其特征在于,当N小于M时,所述N个事件领域是所述预设M个事件领域中,领域概率按照由高至低的顺序排列在前N位的N个事件领域,N≥2。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
语义理解单元,用于在所述第一获取单元获取所述文本信息归属于M个事件领域中的每个事件领域的领域概率之后,在所述N个事件领域,分别对所述文本信息进行语义理解,得到N个语义理解结果。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述装置还包括:
存储单元,用于保存所述M个事件领域中的每个事件领域对应的关键字模型,所述关键字模型中包括:对应事件领域的多个关键字;
所述第三获取单元,具体用于:
对所述文本信息进行分词处理,并提取至少一个分词;
获取所述至少一个分词对应的关键字在所述存储单元保存的所述每个事件领域的关键字模型中的分布信息;
根据所述分布信息,计算所述文本信息归属于所述N个事件领域中的每个事件领域的置信度。
12.根据权利要求8-10中任一项所述的装置,其特征在于,所述第一获取单元,具体用于:
对所述文本信息进行分词处理,并提取至少一个分词;
从所述每个事件领域对应的数据库模型中查找所述至少一个分词对应的特征,所述数据库模型中包括多个特征、每个特征的权重及每个特征对应的分词,所述权重用于指示所述权重对应的特征归属于所述数据库模型中对应的事件领域的概率;其中,每个事件领域对应一个数据库模型;
根据从所述每个事件领域对应的数据库模型中查找到的特征的权重,计算所述文本信息归属于所述每个事件领域的领域概率。
13.根据权利要求8-10中任一项所述的装置,其特征在于,所述装置还包括:
存储单元,用于保存所述M个事件领域中的每个事件领域对应的关键字模型,所述关键字模型中包括:多个关键字和每个关键字指示文本信息归属于所述关键字模型对应的事件领域的概率;
所述第一获取单元,具体用于:
从所述文本信息中识别至少一个关键字;
从所述每个事件领域对应的关键字模型中获取所述至少一个关键字分别指示的概率;
根据所述至少一个关键字分别指示的概率,计算所述文本信息归属于所述每个事件领域的领域概率。
14.根据权利要求8-10中任一项所述的装置,其特征在于,所述装置还包括:
执行单元,用于在所述输出单元输出所述语义理解结果之后,根据所述语义理解结果,执行所述语义理解结果对应的操作。
15.一种终端,其特征在于,包括:一个或多个处理器和一个或多个存储器;所述一个或多个存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令,当所述指令被所述一个或多个处理器执行时,使得所述终端执行如权利要求1-7任一所述的语音信息处理方法。
16.一种电子设备,其特征在于,所述电子设备包括执行如权利要求1-7中任一项所述的语音信息处理方法的装置。
17.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1-7中任一项所述的语音信息处理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017109315049 | 2017-10-09 | ||
CN201710931504 | 2017-10-09 | ||
PCT/CN2017/106168 WO2019071607A1 (zh) | 2017-10-09 | 2017-10-13 | 一种语音信息处理方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110720104A CN110720104A (zh) | 2020-01-21 |
CN110720104B true CN110720104B (zh) | 2021-11-19 |
Family
ID=66101210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780091549.8A Active CN110720104B (zh) | 2017-10-09 | 2017-10-13 | 一种语音信息处理方法、装置及终端 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11308965B2 (zh) |
EP (1) | EP3686758A4 (zh) |
CN (1) | CN110720104B (zh) |
AU (1) | AU2017435621B2 (zh) |
WO (1) | WO2019071607A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210064594A (ko) * | 2019-11-26 | 2021-06-03 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
CN112652307A (zh) * | 2020-12-02 | 2021-04-13 | 北京博瑞彤芸科技股份有限公司 | 一种语音触发抽奖的方法、系统及电子设备 |
CN117059095B (zh) * | 2023-07-21 | 2024-04-30 | 广州市睿翔通信科技有限公司 | 基于ivr的服务提供方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050160A (zh) * | 2014-03-12 | 2014-09-17 | 北京紫冬锐意语音科技有限公司 | 一种机器与人工翻译相融合的口语翻译方法和装置 |
CN105378830A (zh) * | 2013-05-31 | 2016-03-02 | 朗桑有限公司 | 音频数据的处理 |
CN106205607A (zh) * | 2015-05-05 | 2016-12-07 | 联想(北京)有限公司 | 语音信息处理方法和语音信息处理装置 |
CN106407333A (zh) * | 2016-09-05 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询识别方法及装置 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714933B2 (en) * | 2000-05-09 | 2004-03-30 | Cnet Networks, Inc. | Content aggregation method and apparatus for on-line purchasing system |
US6904405B2 (en) * | 1999-07-17 | 2005-06-07 | Edwin A. Suominen | Message recognition using shared language model |
ATE465457T1 (de) * | 2002-03-27 | 2010-05-15 | Univ Southern California | Phrasenbasiertes gemeines wahrscheinlichkeitsmodell zur statistischen maschinellen übersetzung |
US8015143B2 (en) | 2002-05-22 | 2011-09-06 | Estes Timothy W | Knowledge discovery agent system and method |
CN1719438A (zh) | 2004-07-06 | 2006-01-11 | 台达电子工业股份有限公司 | 整合式对话系统及其方法 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US9201979B2 (en) | 2005-09-14 | 2015-12-01 | Millennial Media, Inc. | Syndication of a behavioral profile associated with an availability condition using a monetization platform |
US8209182B2 (en) * | 2005-11-30 | 2012-06-26 | University Of Southern California | Emotion recognition system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8326599B2 (en) * | 2009-04-21 | 2012-12-04 | Xerox Corporation | Bi-phrase filtering for statistical machine translation |
CN101587493B (zh) | 2009-06-29 | 2012-07-04 | 中国科学技术大学 | 文本分类方法 |
US8798984B2 (en) | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US20130031476A1 (en) * | 2011-07-25 | 2013-01-31 | Coin Emmett | Voice activated virtual assistant |
US8914288B2 (en) * | 2011-09-01 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for advanced turn-taking for interactive spoken dialog systems |
KR20140089862A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치 및 그의 제어 방법 |
US9269354B2 (en) | 2013-03-11 | 2016-02-23 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
JP6245846B2 (ja) * | 2013-05-30 | 2017-12-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識における読み精度を改善するシステム、方法、およびプログラム |
CN104424290A (zh) | 2013-09-02 | 2015-03-18 | 佳能株式会社 | 基于语音的问答系统和用于交互式语音系统的方法 |
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
EP3029607A1 (en) * | 2014-12-05 | 2016-06-08 | PLANET AI GmbH | Method for text recognition and computer program product |
US9805713B2 (en) * | 2015-03-13 | 2017-10-31 | Google Inc. | Addressing missing features in models |
US11250218B2 (en) * | 2015-12-11 | 2022-02-15 | Microsoft Technology Licensing, Llc | Personalizing natural language understanding systems |
CN105632487B (zh) * | 2015-12-31 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种语音识别方法和装置 |
CN105869629B (zh) | 2016-03-30 | 2018-03-20 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN106095834A (zh) | 2016-06-01 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 基于话题的智能对话方法及系统 |
CN107092593B (zh) * | 2017-04-12 | 2020-11-03 | 华中师范大学 | 初等数学分层抽样应用题的句子语义角色识别方法及系统 |
CN107193973B (zh) | 2017-05-25 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语义解析信息的领域识别方法及装置、设备及可读介质 |
-
2017
- 2017-10-13 EP EP17928115.9A patent/EP3686758A4/en active Pending
- 2017-10-13 AU AU2017435621A patent/AU2017435621B2/en active Active
- 2017-10-13 US US16/754,540 patent/US11308965B2/en active Active
- 2017-10-13 WO PCT/CN2017/106168 patent/WO2019071607A1/zh unknown
- 2017-10-13 CN CN201780091549.8A patent/CN110720104B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378830A (zh) * | 2013-05-31 | 2016-03-02 | 朗桑有限公司 | 音频数据的处理 |
CN104050160A (zh) * | 2014-03-12 | 2014-09-17 | 北京紫冬锐意语音科技有限公司 | 一种机器与人工翻译相融合的口语翻译方法和装置 |
CN106205607A (zh) * | 2015-05-05 | 2016-12-07 | 联想(北京)有限公司 | 语音信息处理方法和语音信息处理装置 |
CN106407333A (zh) * | 2016-09-05 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
"Term-Dependent Confidence Normalisation for Out-of-Vocabulary Spoken Term Detection";Javier Tejedo 等;《Journal of Computer Science & Technology》;20120315;第27卷(第2期);第358-375页 * |
"基于Word Lattice结构的语音识别置信度算法";付跃文 等;《计算机工程与应用》;20061221;第36卷(第12期);第51-54页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110720104A (zh) | 2020-01-21 |
WO2019071607A1 (zh) | 2019-04-18 |
EP3686758A1 (en) | 2020-07-29 |
AU2017435621A1 (en) | 2020-05-07 |
AU2017435621B2 (en) | 2022-01-27 |
US11308965B2 (en) | 2022-04-19 |
US20200273463A1 (en) | 2020-08-27 |
EP3686758A4 (en) | 2020-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021196981A1 (zh) | 语音交互方法、装置和终端设备 | |
CN108305296B (zh) | 图像描述生成方法、模型训练方法、设备和存储介质 | |
EP3092555B1 (en) | Audio triggers based on context | |
KR101758302B1 (ko) | 컨텍스트에 기초한 음성 인식 문법 선택 | |
US9582317B2 (en) | Method of using use log of portable terminal and apparatus using the same | |
KR101894499B1 (ko) | 상태-종속 쿼리 응답 | |
CN104123937B (zh) | 提醒设置方法、装置和系统 | |
US9754581B2 (en) | Reminder setting method and apparatus | |
US20140025371A1 (en) | Method and apparatus for recommending texts | |
CN108984731A (zh) | 歌单推荐方法、装置及存储介质 | |
US20140222435A1 (en) | Navigation system with user dependent language mechanism and method of operation thereof | |
CN105446994A (zh) | 业务推荐方法和具有智能助手的装置 | |
CN109219953B (zh) | 一种闹钟提醒方法、电子设备及计算机可读存储介质 | |
CN103702297A (zh) | 短信增强方法、装置及系统 | |
CN110720104B (zh) | 一种语音信息处理方法、装置及终端 | |
CN111883117B (zh) | 语音唤醒方法及装置 | |
CN112257436A (zh) | 文本检测方法及装置 | |
CN112673367A (zh) | 用于预测用户意图的电子设备和方法 | |
CN113838479B (zh) | 单词发音评测方法、服务器及系统 | |
CN116403573A (zh) | 一种语音识别方法 | |
CN111052050A (zh) | 一种输入信息的方法及终端 | |
CN110178130B (zh) | 一种生成相册标题的方法及设备 | |
CN111639217A (zh) | 一种口语评级方法、终端设备及存储介质 | |
CN112925963B (zh) | 数据推荐方法和装置 | |
CN111768788B (zh) | 用于转换信息的方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |