CN110866090A - 用于语音交互的方法、装置、电子设备和计算机存储介质 - Google Patents
用于语音交互的方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN110866090A CN110866090A CN201911115505.1A CN201911115505A CN110866090A CN 110866090 A CN110866090 A CN 110866090A CN 201911115505 A CN201911115505 A CN 201911115505A CN 110866090 A CN110866090 A CN 110866090A
- Authority
- CN
- China
- Prior art keywords
- information
- intention
- semantic
- text
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000002372 labelling Methods 0.000 claims abstract description 21
- 230000004044 response Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本公开的实施例涉及一种用于语音交互的方法、装置、电子设备和计算机可读存储介质。该方法可以包括确定与接收的语音信号相对应的文本信息。该方法进一步包括通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息。此外,该方法还包括基于所述标注信息确定所述文本信息的第一意图信息。并且,该方法进一步包括基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。本公开的技术方案通过引入语义理解技术,从而可以基于语音识别的文本信息推导出语义结果。此外,结合改进的基于深度神经网络的语义理解模型以及线上的实时干预机制,从而可以获取正确率较高的语义结果。
Description
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及用于语音交互的方法、装置、设备和计算机可读存储介质。
背景技术
语音交互技术是人与机器用语音进行交互的一种技术,实现了类似自然对话的语音交互体验。人机交互从计算机时代的鼠标键盘配合屏幕方式交互,到智能手机时代的触屏直接交互。人机交互的方式越来越简单,交互门槛越来越低。随着人工智能和移动互联网的蓬勃发展,类似人与人之间的自然语音交互逐渐成为人机交互的一种新型的方式。语音交互同时兼备输入带宽大、准确性高、可移动性好、使用门槛低等优点,是人机交互的首选交互方式之一。通过语音交互实现人机交互,提高了信息的处理效率。同时,这种方式也使得用户和机器的交互更加简便。然而,在这种交互过程中还存在着许多需要解决的问题。
发明内容
根据本公开的示例实施例,提供了一种用于语音交互的方案。
在本公开的第一方面中,提供了一种用于语音交互的方法。该方法可以包括确定与接收的语音信号相对应的文本信息。该方法进一步包括通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息。此外,该方法还包括基于所述标注信息确定所述文本信息的第一意图信息。并且,该方法进一步包括基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。
在本公开的第二方面中,提供了一种用于语音交互的装置,包括:文本信息确定模块,被配置为确定与接收的语音信号相对应的文本信息;标注模块,被配置为通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息;第一意图确定模块,被配置为基于所述标注信息确定所述文本信息的第一意图信息;以及语义确定模块,被配置为基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的用于语音交互的过程的流程图;
图3示出了根据本公开的实施例的用于确定语义的过程的流程图;
图4示出了根据本公开的实施例的用于确定语义的过程的流程图;
图5示出了根据本公开的实施例的用于语音交互的装置的框图;以及
图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在实现语音交互的过程中,基本采用一次唤醒一次交互的方式。该交互方式是唤醒词检测技术和产品策略结合的产物,其主要特点是:每当有用户喊完激活该设备的唤醒词之后,内置的唤醒词检测模块会检测到该唤醒词信号,开始启动识别聆听。当检测到语音尾点或者达到预先设定的时长结束聆听,将过程中收到的语音进行识别,从而达到响应用户需求的过程。
然而,在目前的人机交互方式中存在许多问题。首先,在用户每一次发起请求之前,均需要唤醒设备,带来了极大的不便利性。其次,如果用户唤醒完没有与设备说话,可能导致设备误响应,使用户体验非常差。问题的关键在于如何区分识别的信息是否是对设备发起的请求信息,从而及时响应用户的真实请求,并且自动屏蔽非用户请求。用户发起的请求没有被响应、或者非人机交互的请求被误响应,都会极大的损坏用户体验。因此如何提升对人机/非人机交互判定的准确性,是多次交互方案的最核心问题。
根据本公开的实施例,提出一种语音交互的改进方案。在该方案中,通过引入语义理解技术,从而可以基于语音识别的文本信息推导出语义结果。此外,结合改进的基于深度神经网络的语义理解模型以及线上的实时干预机制,从而可以获取正确率较高的语义结果。再者,还可以基于深度神经网络从上述语义结果、上下文状态以及声学置信度等信息中获取该文本信息是人机交互信息还是非人机交互信息的判定结果。通过该方法,可以从多个维度确定语音交互设备是否应该对所获得的声音信号进行响应以及声音信号的具体请求,从而更准确、智能地实现语音交互控制,提升用户体验。
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中,在进行人机交互时,获得的语音信号110被发送给管理设备120。
语音信号110可以通过执行用户交互的任何语音交互设备获得。在一些实施例中,用户向语音交互设备说话,则可以获得语音110。在一些实施例中,如果语音交互设备存在于用户周围,在用户与其他人交互时,语音交互设备可以获得语音信号110。在一些实施例中,语音信号110还可以是由语音交互设备接收的其他声音信号,例如电视机内的说话声。在一些实施例中,语音信号110是通过执行一次唤醒多次交互的语音交互设备获得的。上述示例仅是描述本公开,而非对本公开的具体限定。
语音交互设备可以具有相关联的声音采集器(例如,一个或多个麦克风)来采集用户的语音指令。语音交互设备还可以具有相关联的声音播放器(例如,一个或多个扬声器)来向播放声音。
语音交互设备可以是任何能够通过语音信号进行控制和/或交互的任何电子设备。语音交互设备的一些示例可以包括但不限于:智能音箱、语音交互电视盒、智能家电设备、语音家教机、智能机器人、地图导航设备、智能穿戴设备等。语音交互设备也可以是安装有语音交互应用的任何其他电子设备,语音交互应用诸如是语音助手应用、智能车机系统、信息搜索应用、地图应用、社交平台应用、音视频播放应用、智能助手应用等,可安装这样的语音交互应用的电子设备的示例可以但不限于智能手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电子书设备、游戏设备或者前述各项的任意组合。
例如,在语音交互设备是智能音箱的情况下,语音指令可以是“播放某某歌手的某某歌曲”等,语音交互设备在语音信号被正确识别后可以搜索对应的歌曲并且播放给用户。
在与语音交互设备的交互过程中,通常需要通过唤醒词将语音交互设备唤醒进入交互状态。语音交互设备可以支持一次唤醒多次交互。在一次唤醒多次交互的场景中,在唤醒语音交互设备后,只要设备处于工作状态,例如正在发出声音等,用户就无需要再次发出唤醒词,而是可以直接与语音交互设备进行交互。这降低了交互门槛,提高了用户交互意愿。在一些实施例中,如果交互属于查询类,例如询问天气,在语音交互设备回答完毕之后的一段时间内,用户也无需再次唤醒设备,即可继续进行交互。
语音信号110被传送到管理设备120中进行处理。管理设备120基于接收的语音信号110来确定出该语音信号110是否是用户发出的要用于使语音交互设备执行的命令。如果是,管理设备120将包括执行指令的语义结果130或包括要获得的内容的语义结果130发送给语音交互设备进行处理。
在一些实施例中,管理设备120可以是位于云端的计算设备,其用来处理由语音交互设备上传的语音数据。在一些实施例中,管理设备120与语音交互设备为同一设备。因此,语音信号110也可以由接收语音信号110的语音交互设备进行处理。语音交互设备直接识别语音信号110是否是要执行命令。在一些实施列中,管理设备120包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。
应当理解,图1示出的环境仅是示例性的,而非对本公开的具体限定。
图2示出了根据本公开的实施例的用于语音交互的过程200的流程图。在某些实施例中,方法200可以在图6示出的设备中实现。现参照图1描述根据本公开实施例的用于语音交互的过程200。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。
在210,管理设备120可以确定与接收的语音信号110相对应的文本信息。作为示例,可以将来自用户的语音信号110转换为文本信息,例如,“晚上8点听周杰伦的歌”。
在220,管理设备120可以通过对文本信息中的元素进行标注,获取文本信息的标注信息。在某些实施例中,管理设备120可以对上述元素中的实体元素进行标注,该实体元素包含时间、数字、人名和地名中的至少一个。作为示例,管理设备120可以将“北京今天天气怎么样”中的“今天”标注为时间,并且将“北京今天天气怎么样”中的“北京”标注为地名。
在某些实施例中,管理设备120还可以基于预先确定的知识库标注所述元素的领域。作为示例,可以结合领域知识库和预先确定的场景知识进行领域概念标注(这里,概念是指标注信息)。领域概念可以包括领域实体概念,例如音乐领域的歌手“周杰伦”、歌曲、视频领域的电视剧、电影、动画片、演员等。领域概念还可以包括领域非实体概念,例如音乐领域的“听”、“歌”、视频领域的“看”、“视频”等。
在某些实施例中,管理设备120还可以基于上下文无关文法对元素中的可替换元素进行标注。作为示例,对于“给A打电话”的文本信息,基于上下文无关文法,可以将其中的“A”标记为联系人概念。
此外,为了避免出现歧义或者误标注的情况,可以基于预先确定的、离线训练好的实体资源进行上下文歧义消解。
备选地或附加地,可以采用K最优路径算法排除排名靠后的、冗余的候选概念,以便加速概念推导。
在某些实施例中,管理设备120还可以通过概念规约得到最终的候选概念序列。一方面,概念规约可以便于复用子概念,包括一对一的上下位概念规约(例如,标注的概念“歌手”可以规约成“人”)以及多对一的组合概念规约(例如,标注的概念“适合”+“场景(例如,睡前)”+“听”可以规约为“场景”)。另一方面概念规约还可以通过减少倒排候选加速概念推导。
在230,管理设备120可以基于标注信息确定文本信息的第一意图信息。在某些实施例中,管理设备120可以基于标注信息与意图信息之间的映射关系,确定与标注信息相对应的多个备选意图信息。作为示例,可以基于标注好的概念的序列来拉取倒排意图,从而得到备选的意图列表,其中标注的概念与意图的索引信息是预先构建的。例如,标注“歌曲”、“听…的歌”均可拉出意图“播放音乐”。
接下来,管理设备120可以从多个备选意图信息中选择第一意图信息。作为示例,响应于多个备选意图信息中的部分备选意图信息不满足预定约束条件,管理设备120可以将部分备选意图信息从多个备选意图信息中移除。作为示例,可以依次对每个备选意图进行路径推导,同时结合剪枝策略进行剪枝。本领域技术人员应理解,一组互相不存在交叠的标注好的概念序列即为一条路径,而剪枝策略是对该概念序列的预定约束条件。
在某些实施例中,该预定约束条件可以是标注的概念与意图之间的对应关系,或者是标注的概念(信息单元)的顺序是否正确,又或者是标注的概念是否可以具有多个值(即,是否支持数组格式)。
应理解,还可以对候选路径排序取前k条(top-k)候选路径,排序条件包括概念序列覆盖长度、ngram概率、概念权重、概念个数等。如果候选路径中对应的意图可进一步规约成概念,则可继续参与概念推导,因此该方法支持递归地推导意图。
接下来,管理设备120可以将打分高于阈值的路径转成语义树,路径对应的意图作为根节点,路径中的概念(即标注信息)序列作为第一层节点。
在240,管理设备120可以基于第一意图信息和标注信息,确定文本信息的语义。通常,可以直接基于意图信息确定领域信息,并且由于槽位信息是标注信息的子集,故也可以基于标注信息确定槽位信息。因此,管理设备120可以将确定的领域、意图和槽位信息生成为文本信息的语义。
以此方式,可以通过对输入的文本信息中的每个片段进行概念标注,并且基于预先定义的场景知识对概念进行组合推导,来获取集领域意图槽位于一体的语义树,从而较传统技术更为灵活地推导出与语音信号110相符的语义结果130。
图3示出了根据本公开的实施例的用于确定语义的详细过程300的流程图。在某些实施例中,方法300可以在图6示出的设备中实现。现参照图1描述根据本公开实施例的用于语音交互的过程300。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。
在310,管理设备120可以基于第一意图信息和标注信息,确定文本信息的第一领域信息和第一槽位信息。在某些实施例中,可以直接基于意图信息确定领域信息,并且由于槽位信息是标注信息的子集,故也可以基于标注信息确定槽位信息。此外,可以将可配置化的语义树序列化,以便将树状语义结果转换成扁平结构。
在320,管理设备120可以基于第一意图信息、第一领域信息和第一槽位信息,生成文本信息的第一语义信息。
在330,管理设备120可以至少基于第一语义信息,确定文本信息的语义。根据本公开的实施例,可以通过多种方式来确定文本信息的语义。例如,图4示出了根据本公开的一些实施例的用于确定语义的过程400的流程图。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。
在410,管理设备120可以基于与文本信息相关联的文本特征表示来确定文本信息的第二领域信息和第二意图信息。在某些实施例中,可以将文本信息转换为文本特征表示并将其输入训练好的第一神经网络模型来确定出文本信息的第二领域信息和第二意图信息。优选地,该第一神经网络模型可以是深度神经网络DNN。备选地或附加地,该第一神经网络模型可以为神经网络NN,卷积神经网络CNN,递归神经网络RNN或自注意力神经网络Transformer等。以此方式,可以充分学习领域和意图之间的关联特性。
在420,管理设备120可以基于与文本信息相关联的文本特征表示来确定文本信息的第二槽位信息。在某些实施例中,可以将文本信息转换为文本特征表示并将其输入训练好的第二神经网络模型来确定出文本信息的第二领域信息和第二意图信息。优选地,该第二神经网络模型可以是深度神经网络DNN。备选地或附加地,该第二神经网络模型可以为神经网络NN,卷积神经网络CNN,递归神经网络RNN或自注意力神经网络Transformer等。
在430,管理设备120可以基于第二领域信息、第二意图信息和第二槽位信息,生成文本信息的第二语义信息。
在440,管理设备120可以基于第一语义信息和第二语义信息,确定文本信息的语义。
以此方式,可以解决远场语音识别文本高噪声高冗余高度口语化的问题,同时可以兼顾极快的响应速度。这一方面可以充分学习领域和意图之间的关联特性,另一方面还可以减少模型个数、加快响应速度。
在某些实施例中,还可以集成实时干预机制,采用文本信息、关键词、文法等多种级别的黑/白名单,在线上自由干预领域、意图、槽位三种粒度的语义结果,从而可以进一步确保快速、准确、稳定地响应产品需求,保证线上用户体验。
在某些实施例中,还可以融合规则和深度学习模型的语音语义一体化置信度技术,能够融合各声学置信度的优点及语义解析结果,并考虑上下文、客户端状态等信息,作出最终的人机/非人机交互结果判定。在该方案中,已有的声学置信度技术,包括局部单音节声学置信度、整句单音节声学置信度、整句声学特征声学置信度,以及语义解析结果、上文状态、语言模型得分等,均被归一化成神经网络模型中的一维或多维输入特征,基于线上数据大量的标注结果,构造训练集,并训练上述神经网络模型。该神经网络模型能够学习到声学以及语义等各输入特征的优点,并融合上下文、端状态等输入信息,给出最终的人机/非人机判定结果。该神经网络模型可以是深度神经网络DNN,也可以备选地是神经网络NN,卷积神经网络CNN,递归神经网络RNN或自注意力神经网络Transformer等。
通过上述方法,可以在通过确定是否是语音交互设备进行交互的语音后,再基于语义确定要执行的动作,从而可以提高语音交互过程中语音命令执行的准确性。同时,在一次唤醒多次交互的前提下,保证了不会误执行语音命令,改善了用户体验。
图5示出了根据本公开实施例的用于语音交互的装置500的示意性框图。如图5所示,装置500可以包括:文本信息确定模块510,被配置为确定与接收的语音信号相对应的文本信息;标注模块520,被配置为通过对文本信息中的元素进行标注,获取文本信息的标注信息;第一意图确定模块530,被配置为基于标注信息确定文本信息的第一意图信息;以及语义确定模块540,被配置为基于第一意图信息和标注信息,确定文本信息的语义。
在某些实施例中,语义确定模块540可以包括:领域槽位确定模块(未示出),被配置为基于第一意图信息和标注信息,确定文本信息的第一领域信息和第一槽位信息;第一语义信息生成模块(未示出),被配置为基于第一意图信息、第一领域信息和第一槽位信息,生成文本信息的第一语义信息;以及语义生成模块(未示出),被配置为至少基于第一语义信息,确定文本信息的语义。
在某些实施例中,语义生成模块可以包括:领域意图确定模块(未示出),被配置为基于与文本信息相关联的文本特征表示来确定文本信息的第二领域信息和第二意图信息;槽位确定模块(未示出),被配置为基于与文本信息相关联的文本特征表示来确定文本信息的第二槽位信息;第二语义信息生成模块(未示出),被配置为基于第二领域信息、第二意图信息和第二槽位信息,生成文本信息的第二语义信息;以及语义结果确定模块(未示出),被配置为基于第一语义信息和第二语义信息,确定文本信息的语义。
在某些实施例中,标注模块可以包括以下至少一项:实体标注模块(未示出),被配置为对元素中的实体元素进行标注,实体元素包含时间、数字、人名和地名中的至少一个;领域标注模块(未示出),被配置为基于预先确定的知识库标注元素的领域;以及可替换元素标注模块(未示出),被配置为基于上下文无关文法对元素中的可替换元素进行标注。
在某些实施例中,第一意图确定模块可以包括:备选意图确定模块(未示出),被配置为基于标注信息与意图信息之间的映射关系,确定与标注信息相对应的多个备选意图信息;以及第一意图选择模块(未示出),被配置为从多个备选意图信息中选择第一意图信息。
在某些实施例中,第一意图选择模块可以包括:移除模块(未示出),被配置为响应于多个备选意图信息中的部分备选意图信息不满足预定约束条件,将部分备选意图信息从多个备选意图信息中移除,其中预定约束条件包括以下中的至少一项:标注信息中的信息单元的顺序是否正确;以及标注信息中的一个信息单元是否具有多个值。
图6示出了能够实施本公开的多个实施例的计算设备600的框图。设备600可以用于实现图1的管理设备120。如图所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元601执行上文所描述的各个方法和处理,例如过程200、300、400。例如,在一些实施例中,过程200、300、400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU601执行时,可以执行上文描述的过程200、300、400的一个或多个步骤。备选地,在其他实施例中,CPU 601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200、300、400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (14)
1.一种用于语音交互的方法,包括:
确定与接收的语音信号相对应的文本信息;
通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息;
基于所述标注信息确定所述文本信息的第一意图信息;以及
基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。
2.根据权利要求1所述的方法,其中确定所述文本信息的语义包括:
基于所述第一意图信息和所述标注信息,确定所述文本信息的第一领域信息和第一槽位信息;
基于所述第一意图信息、所述第一领域信息和所述第一槽位信息,生成所述文本信息的第一语义信息;以及
至少基于所述第一语义信息,确定所述文本信息的语义。
3.根据权利要求2所述的方法,其中至少基于所述第一语义信息确定所述文本信息的语义包括:
基于与所述文本信息相关联的文本特征表示来确定所述文本信息的第二领域信息和第二意图信息;
基于与所述文本信息相关联的文本特征表示来确定所述文本信息的第二槽位信息;
基于所述第二领域信息、所述第二意图信息和所述第二槽位信息,生成所述文本信息的第二语义信息;以及
基于所述第一语义信息和所述第二语义信息,确定所述文本信息的语义。
4.根据权利要求1所述的方法,其中对所述文本信息中的元素进行标注包括以下至少一项:
对所述元素中的实体元素进行标注,所述实体元素包含时间、数字、人名和地名中的至少一个;
基于预先确定的知识库标注所述元素的领域;以及
基于上下文无关文法对所述元素中的可替换元素进行标注。
5.根据权利要求1所述的方法,其中确定所述文本信息的第一意图信息包括:
基于所述标注信息与意图信息之间的映射关系,确定与所述标注信息相对应的多个备选意图信息;以及
从所述多个备选意图信息中选择所述第一意图信息。
6.根据权利要求5所述的方法,其中从所述多个备选意图信息中确定所述第一意图信息包括:
响应于所述多个备选意图信息中的部分备选意图信息不满足预定约束条件,将所述部分备选意图信息从所述多个备选意图信息中移除,
其中所述预定约束条件包括以下中的至少一项:
所述标注信息中的信息单元的顺序是否正确;以及
所述标注信息中的一个信息单元是否具有多个值。
7.一种用于语音交互的装置,包括:
文本信息确定模块,被配置为确定与接收的语音信号相对应的文本信息;
标注模块,被配置为通过对所述文本信息中的元素进行标注,获取所述文本信息的标注信息;
第一意图确定模块,被配置为基于所述标注信息确定所述文本信息的第一意图信息;以及
语义确定模块,被配置为基于所述第一意图信息和所述标注信息,确定所述文本信息的语义。
8.根据权利要求7所述的装置,其中所述语义确定模块包括:
领域槽位确定模块,被配置为基于所述第一意图信息和所述标注信息,确定所述文本信息的第一领域信息和第一槽位信息;
第一语义信息生成模块,被配置为基于所述第一意图信息、所述第一领域信息和所述第一槽位信息,生成所述文本信息的第一语义信息;以及
语义生成模块,被配置为至少基于所述第一语义信息,确定所述文本信息的语义。
9.根据权利要求8所述的装置,其中所述语义生成模块包括:
领域意图确定模块,被配置为基于与所述文本信息相关联的文本特征表示来确定所述文本信息的第二领域信息和第二意图信息;
槽位确定模块,被配置为基于与所述文本信息相关联的文本特征表示来确定所述文本信息的第二槽位信息;
第二语义信息生成模块,被配置为基于所述第二领域信息、所述第二意图信息和所述第二槽位信息,生成所述文本信息的第二语义信息;以及
语义结果确定模块,被配置为基于所述第一语义信息和所述第二语义信息,确定所述文本信息的语义。
10.根据权利要求7所述的装置,其中所述标注模块包括以下至少一项:
实体标注模块,被配置为对所述元素中的实体元素进行标注,所述实体元素包含时间、数字、人名和地名中的至少一个;
领域标注模块,被配置为基于预先确定的知识库标注所述元素的领域;以及
可替换元素标注模块,被配置为基于上下文无关文法对所述元素中的可替换元素进行标注。
11.根据权利要求7所述的装置,其中所述第一意图确定模块包括:
备选意图确定模块,被配置为基于所述标注信息与意图信息之间的映射关系,确定与所述标注信息相对应的多个备选意图信息;以及
第一意图选择模块,被配置为从所述多个备选意图信息中选择所述第一意图信息。
12.根据权利要求11所述的装置,其中所述第一意图选择模块包括:
移除模块,被配置为响应于所述多个备选意图信息中的部分备选意图信息不满足预定约束条件,将所述部分备选意图信息从所述多个备选意图信息中移除,
其中所述预定约束条件包括以下中的至少一项:
所述标注信息中的信息单元的顺序是否正确;以及
所述标注信息中的一个信息单元是否具有多个值。
13.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-6任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115505.1A CN110866090A (zh) | 2019-11-14 | 2019-11-14 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
US16/895,318 US11830482B2 (en) | 2019-11-14 | 2020-06-08 | Method and apparatus for speech interaction, and computer storage medium |
JP2020185935A JP7300435B2 (ja) | 2019-11-14 | 2020-11-06 | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911115505.1A CN110866090A (zh) | 2019-11-14 | 2019-11-14 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866090A true CN110866090A (zh) | 2020-03-06 |
Family
ID=69654866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911115505.1A Pending CN110866090A (zh) | 2019-11-14 | 2019-11-14 | 用于语音交互的方法、装置、电子设备和计算机存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11830482B2 (zh) |
JP (1) | JP7300435B2 (zh) |
CN (1) | CN110866090A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429903A (zh) * | 2020-03-19 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 音频信号识别方法、装置、系统、设备和可读介质 |
CN113674742A (zh) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021124613A (ja) * | 2020-02-05 | 2021-08-30 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
US11531821B2 (en) * | 2020-08-13 | 2022-12-20 | Salesforce, Inc. | Intent resolution for chatbot conversations with negation and coreferences |
CN113591470A (zh) * | 2021-06-24 | 2021-11-02 | 海信视像科技股份有限公司 | 一种语义理解方法及装置 |
CN113408274B (zh) * | 2021-07-13 | 2022-06-24 | 北京百度网讯科技有限公司 | 训练语言模型的方法和标签设置方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549656A (zh) * | 2018-03-09 | 2018-09-18 | 北京百度网讯科技有限公司 | 语句解析方法、装置、计算机设备及可读介质 |
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN110309277A (zh) * | 2018-03-28 | 2019-10-08 | 蔚来汽车有限公司 | 人机对话语义解析方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11107462B1 (en) * | 2017-10-30 | 2021-08-31 | Facebook, Inc. | Methods and systems for performing end-to-end spoken language analysis |
US11270074B2 (en) | 2018-01-16 | 2022-03-08 | Sony Corporation | Information processing apparatus, information processing system, and information processing method, and program |
CN108563790B (zh) | 2018-04-28 | 2021-10-08 | 科大讯飞股份有限公司 | 一种语义理解方法及装置、设备、计算机可读介质 |
US10847153B2 (en) * | 2018-06-06 | 2020-11-24 | Amazon Technologies, Inc. | Temporary account association with voice-enabled devices |
CN108959257B (zh) | 2018-06-29 | 2022-11-22 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
US11355098B1 (en) * | 2018-12-13 | 2022-06-07 | Amazon Technologies, Inc. | Centralized feedback service for performance of virtual assistant |
US11348573B2 (en) * | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11074908B2 (en) * | 2019-03-29 | 2021-07-27 | Nuance Communications, Inc. | System and method for aligning ASR model weights with NLU concepts |
US11657094B2 (en) * | 2019-06-28 | 2023-05-23 | Meta Platforms Technologies, Llc | Memory grounded conversational reasoning and question answering for assistant systems |
US11158321B2 (en) * | 2019-09-24 | 2021-10-26 | Google Llc | Automated calling system |
-
2019
- 2019-11-14 CN CN201911115505.1A patent/CN110866090A/zh active Pending
-
2020
- 2020-06-08 US US16/895,318 patent/US11830482B2/en active Active
- 2020-11-06 JP JP2020185935A patent/JP7300435B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549656A (zh) * | 2018-03-09 | 2018-09-18 | 北京百度网讯科技有限公司 | 语句解析方法、装置、计算机设备及可读介质 |
CN110309277A (zh) * | 2018-03-28 | 2019-10-08 | 蔚来汽车有限公司 | 人机对话语义解析方法和系统 |
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429903A (zh) * | 2020-03-19 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 音频信号识别方法、装置、系统、设备和可读介质 |
CN111429903B (zh) * | 2020-03-19 | 2021-02-05 | 百度在线网络技术(北京)有限公司 | 音频信号识别方法、装置、系统、设备和可读介质 |
CN113674742A (zh) * | 2021-08-18 | 2021-11-19 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210151039A1 (en) | 2021-05-20 |
US11830482B2 (en) | 2023-11-28 |
JP7300435B2 (ja) | 2023-06-29 |
JP2021081712A (ja) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11503155B2 (en) | Interactive voice-control method and apparatus, device and medium | |
US11830482B2 (en) | Method and apparatus for speech interaction, and computer storage medium | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
WO2022057712A1 (zh) | 电子设备及其语义解析方法、介质和人机对话系统 | |
EP3183728B1 (en) | Orphaned utterance detection system and method | |
US11393490B2 (en) | Method, apparatus, device and computer-readable storage medium for voice interaction | |
CN107134279A (zh) | 一种语音唤醒方法、装置、终端和存储介质 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
US9953644B2 (en) | Targeted clarification questions in speech recognition with concept presence score and concept correctness score | |
KR20210120960A (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN112735418B (zh) | 一种语音交互的处理方法、装置、终端及存储介质 | |
CN112151015B (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
US11532301B1 (en) | Natural language processing | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN110827799A (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN110851650A (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN115273840A (zh) | 语音交互设备和语音交互方法 | |
CN114781365A (zh) | 端到端模型训练方法、语义理解方法、装置、设备和介质 | |
CN112242140A (zh) | 智能设备控制方法、装置、电子设备及存储介质 | |
CN112328308A (zh) | 用于识别文本的方法和装置 | |
CN112395414A (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |