CN109285541B - 语音识别系统及语音识别方法 - Google Patents
语音识别系统及语音识别方法 Download PDFInfo
- Publication number
- CN109285541B CN109285541B CN201810769602.1A CN201810769602A CN109285541B CN 109285541 B CN109285541 B CN 109285541B CN 201810769602 A CN201810769602 A CN 201810769602A CN 109285541 B CN109285541 B CN 109285541B
- Authority
- CN
- China
- Prior art keywords
- user
- answer
- voice
- intention
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/58—Arrangements for transferring received calls from one subscriber to another; Arrangements affording interim conversations between either the calling or the called party and a third party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/18—Comparators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/39—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
- H04M3/4933—Directory assistance systems with operator assistance
Abstract
本发明涉及一种语音识别系统及语音识别方法。语音识别系统具备对用户的通话目的地进行控制的呼叫连接控制装置和计算机。所述计算机以如下方式而构成,即,对所述用户的发声语音数据进行语音识别,基于发声语音数据的语音识别结果,对用户的发声意图进行判断,基于判断出的用户的发声意图,对计算机针对于用户而生成的回答的可靠性进行评价,在回答的可靠性在阈值以下的情况下,通过所述呼叫连接控制装置,将用户的通话目的地切换至操作员终端。
Description
技术领域
本发明涉及一种语音识别系统及语音识别方法。
背景技术
在相关技术中,例如具有如下的电话应对系统,其在语音识别部检测到对顾客的通话语音进行了语音识别而得的识别结果的准确性在阈值以下的情况下,判断为识别错误,并切换至由操作员进行的应对(例如,参照日本特开2015-49337)。
发明内容
然而,相关技术的电话应对系统即使在语音识别部检测到对顾客的通话语音进行了语音识别而得的识别结果的准确性不在阈值以下的情况下,也不一定能够对顾客进行适当的应答处理。因此,相关技术的电话应对系统有时会无法迅速切换至由操作员进行的应对。
本发明提供一种能够迅速地切换至由操作员进行的应对的语音识别系统及语音识别方法。
本发明的第一方式所涉及的语音识别系统具备对用户的通话目的地进行控制的呼叫连接控制装置和计算机。所述计算机以如下方式而构成,即,对所述用户的发声语音数据进行语音识别,基于所述发声语音数据的语音识别结果,对所述用户的发声意图进行判断,基于判断出的所述用户的发声意图,对针对于所述用户而生成的回答的可靠性进行评价,在所述回答的可靠性在阈值以下的情况下,通过所述呼叫连接控制装置而将所述用户的通话目的地切换至操作员终端。
根据本发明的第一方式,即使在判断出了用户的发声意图的情况下,但当对用户的发声意图的回答的可靠性在阈值以下时,也能够将用户的通话目的地切换至操作员终端。因此,能够提供一种可迅速地切换至由操作员进行的应对的语音识别系统。
在本发明的第一方式中,可以采用如下的方式,即,所述计算机被构成为,在将所述用户的通话目的地切换至所述操作员终端时,将包括所述用户的发声和所述计算机所生成的回答在内的经历信息发送至所述操作员终端,并在所述操作员终端上进行显示。
根据本发明的第一方式,在将用户的通话目的地切换至操作员终端时,能够使包括用户的发声和回答在内的经历信息显示在操作员终端。因此,能够顺利地实施向操作员的交接。
在本发明的第一方式中,可以采用如下的方式,即,所述计算机被构成为,当判断出的所述用户的发声意图并未被登记为容许针对所述用户而生成回答的用户要求时,将所述用户的通话目的地切换至操作员终端。
根据本发明的第一方式,在判断出的用户的发声意图并未被登记为容许对用户生成回答的用户要求的情况下,能够迅速地将用户的通话目的地切换至操作员终端。因此,能够提供一种可迅速地切换至由操作员进行的应答的语音识别系统。
在本发明的第一方式中,可以采用如下的方式,即,所述计算机被构成为,在判断出的所述用户的发声意图被登记为关于检索的用户要求时,检索结果的候选的数量或重新检索的次数越多,则将所述回答的可靠性评价得越低。
根据本发明的第一方式,即使在判断出的用户的发声意图被登记为关于检索的用户要求的情况下,如果检索结果的候选的数量或重新检索的次数较多,则也能够将用户的通话目的地迅速切换至操作员终端。因此,能够提供一种可迅速切换至由操作员进行的应对的语音识别系统。
在本发明的第一方式中,可以采用如下的方式,即,所述计算机被构成为,基于判断出的所述用户的发声意图而生成针对于所述用户而实施的回答,并对针对于所述用户而实施的回答进行语音合成。
根据本发明的第一方式,能够实现以如下方式构成的语音识别系统,该语音识别系统能够基于判断出的所述用户的发声意图,生成针对于所述用户而实施的回答从而进行语音合成。因此,能够对基于判断出的用户的发声意图的回答进行语音合成,直至切换至由操作员进行的应答为止。
本发明的第二方式所涉及的语音识别方法使用语音识别系统、呼叫连接控制装置、以及计算机,其中,所述语音识别系统对用户的发声语音数据进行语音识别,并基于所述发声语音数据的语音识别结果而对所述用户的发声意图进行判断,所述呼叫连接控制装置对用户的通话目的地进行控制。所述语音识别方法包括:基于所述语音识别系统所判断出的所述用户的发声意图,而对所述计算机针对于所述用户而生成的回答的可靠性进行评价的步骤;在所述回答的可靠性在阈值以下的情况下,通过所述计算机而对所述呼叫连接控制装置进行控制,从而将所述用户的通话目的地切换至操作员终端的步骤。
根据本发明的第一方式,即使在对用户的发声意图进行了判断的情况下,如果对用户的发声意图的回答的可靠性在阈值以下,则也能够将用户的通话目的地切换至操作员终端。因此,能够提供一种可迅速地切换至由操作员进行的应对的语音识别方法。
根据本发明的方式,能够提供一种可迅速地切换至由操作员进行的应对的语音识别系统及语音识别方法。
附图说明
本发明的代表性实施例的特征、优点、技术与工业意义将被描绘至如下的附图中以供参考,其中相同数字表示相同要素。
图1为本发明的实施方式所涉及的语音识别系统的一个示例的结构图。
图2为计算机的一个示例的硬件结构图。
图3为本发明的实施方式所涉及的语音识别系统的一个示例的功能结构图。
图4为利用SIP的通话目的地切换处理的一个示例的顺序图。
图5为执行本发明的实施方式所涉及的语音识别系统的处理的一个示例的流程图。
图6为意图判断辞典的一个示例的表格。
图7为回答可靠性评价处理的一个示例的流程图。
图8为操作员用的画面的一个示例的概念图。
图9为表示语音代理或操作员与用户的对话内容的一个示例的说明图。
具体实施方式
以下,对应用了本发明的语音识别系统及语音识别方法的实施方式进行说明。
图1是本发明的实施方式所涉及的语音识别系统的一个示例的结构图。语音识别系统1包括中心10、车辆20、操作员终端30及内容供应商40。车辆20搭载有DCM(DataCommunication Module,数据通信模块)21、车载器22、话筒23及扬声器24。另外,虽然在图1中图示了车辆20、操作员终端30及内容供应商40为一台的示例,但也可以为一台以上。
作为一个示例,DCM21及车载器22以能够通过CAN(Controller Area Network,控制器局域网络)25进行相互通信的方式而被连接。话筒23及扬声器24与车载器22直接连接,从而对语音数据进行输入或输出。中心10、被搭载于车辆20中的DCM21、操作员终端30及内容供应商40经由移动体通信网络或互联网网络等的网络50而被连接。
中心10通过一台以上的计算机(信息处理装置)而被构成。中心10从各车辆20的车载器22收集用户的发声语音数据,并对用户的发声意图进行判断而提供语音代理的对话服务或操作员的对话服务。
被搭载于车辆20中的车载器22既可以包括导航系统,也可以为导航ECU(Electronic Control Unit)(导航电子控制装置)。车载器22经由CAN25、DCM21及网络50而与中心10或操作员终端30进行通信。DCM21为被搭载于车辆20中的通信部或无线通信装置的一个示例,其例如经由3G(3rd Generation)、LTE(Long Term Evolution,长期演进)、4G(4th Generation)、或5G(5th Generation)等的通信线路而进行无线通信。
操作员终端30是操作员所操作的终端装置,其通过计算机而被构成。此外,内容供应商40通过向中心10提供检索功能等的一台以上的计算机而被构成。
车辆20的CAN25为一个示例,还可以使用采用了Ethernet(注册商标)协议的总线等的CAN25以外的总线来代替CAN25。此外,虽然在车辆20中除了上述的构件以外还搭载有各种装置或设备,但提取并示出了在本发明的实施方式的说明中所需的结构要素。
构成图1的中心10、被搭载于车辆20中的车载器22、操作员终端30及内容供应商40的计算机例如通过如图2所示的硬件结构而被实现。图2为计算机的一个示例的硬件结构图。
图2所示的计算机500具备输入装置501、显示装置502、外部I/F(Interface:接口)503、RAM(Random Access Memory:随机存取存储器)504、ROM(Read Only Memory:只读存储器)505、CPU506、通信I/F507及HDD(Hard Disk Drive:硬盘驱动器)508等,且各自通过总线B而被相互连接。输入装置501及显示装置502可以为,在必要时进行连接而利用的形态。
输入装置501为键盘或鼠标、触摸面板等,其被用于用户等输入各操作信号。显示装置502为显示面板等,其对计算机500的处理结果进行显示。通信I/F507为将计算机500与网络进行连接的接口。HDD508为存储程序或数据的非易失性的存储装置的一个示例。
外部I/F503为与外部装置连接的接口。计算机500能够经由外部I/F503,来执行SD(Secure Digital,安全数字)存储卡等的记录介质503a的读取或写入中的至少一方。ROM505为存储有程序或数据的非易失性的半导体存储器(存储装置)的一个示例。RAM504为临时保持程序或数据的易失性的半导体存储器(存储装置)的一个示例。
CPU506为从ROM505或HDD508等的存储装置中将程序或数据读取到RAM504中,并通过执行处理而实现计算机500整体的控制或功能的运算装置。图1的中心10、车载器22、操作员终端30及内容供应商40例如通过图2所示的计算机500的硬件结构,从而能够实现如下文所述的各种处理。
实现车载器22的计算机500可以进一步作为具有GPS(Global PositioningSystem,全球定位系统)接收机的结构。GPS接收机接收从GPS卫星所发送的GPS信号,并基于所述GPS信号而对车辆20的当前位置进行测量。
图3为本发明的实施方式所涉及的语音识别系统的一个示例的功能结构图。在图3中,中心10具有接收/发送部101、呼叫连接控制部102、语音识别部103、意图判断部104、对话回答生成部105、语音合成部106、切换指示部107、语音识别辞典111、意图判断辞典112及对话经历存储部113。另外,语音识别辞典111、意图判断辞典112及对话经历存储部113可以在中心10的存储装置中实现,也可以在经由网络而与中心10连接的存储装置中实现。
在图3中,语音识别部103、意图判断部104、对话回答生成部105、语音合成部106、切换指示部107、语音识别辞典111、意图判断辞典112及对话经历存储部113实现了语音代理100。另外,虽然图3的语音代理100为具有语音识别辞典111、意图判断辞典112及对话经历存储部113的结构,但也可以为利用位于语音代理100的外部的语音识别辞典111、意图判断辞典112及对话经历存储部113的结构。
接收/发送部101对与车辆20、操作员终端30及内容供应商40之间的通信进行控制。呼叫连接控制部102利用SIP(Session Initiation Protocol,会话发起协议)而执行将车辆20的用户的通话目的地从语音代理100切换至操作员终端30的呼叫连接控制。SIP为经由IP(Internet Protocol)网络的通话中的呼叫连接控制协议的一个示例。
呼叫连接控制部102将从车辆20接收到的用户的发声语音数据发送至作为通话目的地的语音代理100或操作员终端30。在利用了网络50的发声语音数据的对话中,例如利用了VoIP(Voiceover Internet Protocol,网际网络语音协议)。
语音代理100的语音识别部103使用语音识别辞典111而对用户的发声语音数据进行语音识别,并将作为语音识别结果的发声文本输出至意图判断部104及对话经历存储部113。另外,由于使用了语音识别辞典111的语音识别处理为现有技术,因此省略说明。
意图判断部104对所输入的发声文本进行语素分析,并对前后文逻辑关系(是否为对某事的询问等)进行判断。此外,意图判断部104通过判断出的前后文逻辑关系或意图判断辞典112,而对询问内容等用户的发声意图进行判断。意图判断部104基于判断出的用户的发声意图(用户要求),而检索对用户的发声的回答。意图判断部104将意图判断的结果、回答的检索结果输出至切换指示部107及对话回答生成部105。
如下文所述,对话回答生成部105基于所输入的意图判断的结果、回答的检索结果,生成对话回答数据,并输出至语音合成部106。对话回答生成部105在必要时将检索功能等的内容供应商40的功能利用于对话回答数据的生成中。此外,对话回答生成部105将生成对话回答数据的处理的结果(根据检索功能而被检索到的候选数等)输出至切换指示部107。语音合成部106根据所输入的对话回答数据而将对话回答语音数据进行语音合成,从而对车辆20进行应答。
如上文所述,通过呼叫连接控制部102将从车辆20接收到的用户的发声语音数据分配给语音代理100,并按照语音识别部103、意图判断部104、对话回答生成部105及语音合成部106的顺序进行处理,从而实现了语音代理100的对话服务。
此外,语音代理100的切换指示部107从意图判断部104中被输入意图判断的结果、回答的检索结果。此外,切换指示部107从对话回答生成部105中被输入生成对话回答数据的处理的结果(根据检索功能而被检索到的候选数等)。
切换指示部107基于所输入的意图判断的结果、回答的检索结果及生成对话回答数据的处理的结果,并利用意图判断辞典112而对语音代理100的回答的可靠性进行评价。例如,即使意图判断被正确实施,但在为设施的预约等的语音代理100无法执行的用户要求的情况下,切换指示部107也会将可靠性评价得较低。此外,即使在为设施的检索等的语音代理100能够执行的用户要求的情况下,但当根据检索功能而被检索到的候选数较多、或重新检索的次数变多时,切换指示部107也会将可靠性评价得较低。
切换指示部107将建议从语音代理100的对话服务切换至操作员的对话服务(有人操作员对话服务)比较好这一回答的可靠性作为阈值而进行设定。当回答的可靠性在阈值以下时,切换指示部107对呼叫连接控制部102实施指示(例如SIP的REFER请求),以使将车辆20的用户的通话目的地从语音代理100切换至操作员终端30。
如上文所述,通过切换指示部107对呼叫连接控制部102实施指示,以使将从车辆20接收到的用户的发声语音数据分配至操作员终端30,从而实现了操作员的对话服务。此外,切换指示部107从对话经历存储部113中读取对话经历,并将所述对话经历或所述对话经历的概要发送至操作员终端30。
在图3中,车辆20的车载器22具有通话控制部121。通话控制部121将从话筒23所输入的用户的发声转换为发声语音数据,并发送至中心10的呼叫连接控制部102。此外,通话控制部121将从呼叫连接控制部102接收到的对话回答语音数据或操作员的对话回答语音数据从扬声器输出。
操作员终端30的接收/发送部131对其与中心10之间的通信进行控制。通话控制部132将从话筒所输入的操作员的发声转换为对话回答语音数据,并发送至中心10的呼叫连接控制部102。此外,通话控制部132将从呼叫连接控制部102接收到的发声语音数据从扬声器输出。画面控制部133将操作员用的画面显示在操作员终端30上。
语音代理100的对话经历、或所述对话经历的概要作为信息被显示在操作员用的画面上。基于上述内容,操作员在画面上对用户要求、和对所述用户要求的语音代理100的回答进行确认,从而能够顺利地实施交接。
呼叫连接控制部102例如以图4的顺序图的步骤实施将用户的通话目的地从语音代理100切换至操作员终端30的处理。图4为利用SIP的通话目的地切换处理的一个示例的顺序图。
当存在来自用户的发声时,车载器22在步骤S101中将INVITE请求发送至中心10的呼叫连接控制部102。在步骤S102中,呼叫连接控制部102通过根据事前的注册信息而将INVITE请求向对应于INVITE请求中的发信目的地SIPURI(Session Initiation ProtocolUniform Resource Identifier,会话发起协议统一资源标识符)的IP地址进行传送,从而使其在语音代理100中进行收信。
在步骤S103、S104中,语音代理100将实施连接应答的响应“200OK”返回至发信源的车载器22。在步骤S105、S106中,发信源的车载器22将ACK(Acknowledge Character,承认字符)请求返回至发信目的地的语音代理100,以作为接受了响应“200OK”的确认。
在步骤S107中,车载器22和语音代理100根据在INVITE请求或响应“200OK”的主体部分中进行了交换的SDP(Session Description Protocol,会话描述协议)信息,在用户代理(UA)间对语音数据等的多媒体数据进行接收/发送。
在步骤S108中,当回答的可靠性在阈值以下时,语音代理100的切换指示部107对呼叫连接控制部102实施指示,以使将车辆20的用户的通话目的地从语音代理100切换至操作员终端30。前进至步骤S109,呼叫连接控制部102对车载器22实施指示,以使将用户的通话目的地从语音代理100切换至操作员终端30。
在步骤S110~S115中,车载器22通过与步骤S101~S106同样的步骤,将用户的通话目的地从语音代理100切换至操作员终端30。前进至步骤S116,语音代理100通过对车载器22发送BYE请求,从而切断与车载器22之间的通话。此后,车载器22和操作员终端30对语音数据等的多媒体数据进行接收/发送。
此外,语音识别系统1以例如图5所示的步骤实施处理。图5为本发明的实施方式所涉及的语音识别系统所执行的处理的一个示例的流程图。当接收到来自用户的发声语音数据时,从步骤S11前进至步骤S12,中心10的语音识别部103使用语音识别辞典111而对用户的发声语音数据进行语音识别。
前进至步骤S13,意图判断部104对作为语音识别结果的发声文本进行语素分析,并实施用于对用户的发声意图进行判断的意图判断处理。意图判断处理对作为语音识别结果的发声文本的前后文逻辑关系(是否为对某事的询问等)进行判断。
前进至步骤S14,意图判断部104对能否根据判断出的前后文逻辑关系或意图判断辞典112来判断询问内容等、用户的发声意图进行判定。例如,在发声文本的前后文逻辑关系被判定为“查找XXXX设施”的情况下,由于意图判断部104能够进行对意图的回答检索(XXXX设施的位置信息的检索),因此,判定为能够实现意图判断。此外,在发声文本的前后文逻辑关系被判定为“将XXXX设施设为目的地”的情况下,由于意图判断部104也能够进行对意图的回答检索(XXXX设施的目的地设定),因此,判定为能够实现意图判断。
在发声文本被判定为日文“あいうえお”的情况下,由于意图判断部104无法对前后文逻辑关系进行判断从而无法对意图进行回答检索,因此,判定为无法实现意图判断。如果发声文本仅为“XXXX设施”,则虽然并无前后文逻辑关系,但仍能够作为位置进行判断,因此能够进行对意图的回答检索(XXXX设施的位置信息的检索),因此,判定为能够实现意图判断。如果发声文本为“XXXX设施的天气”,则即使与前后文逻辑关系不匹配,但仍能够替换为“设施周边的天气”并进行读取,因此,判定为能够实现意图判断。如果发声文本为“XXXX设施为天气”,则由于无法进行对意图的回答检索,因此判定为无法实现意图判断。
当被判定为能够判断出用户的发声意图时,意图判断部104前进至步骤S15,并基于判断出的用户的发声意图(用户要求)且利用例如图6的意图判断辞典112,来检索对用户的发声的回答。图6为意图判断辞典的一个示例的表格。图6的意图判断辞典作为条目而具有用于用户发声意图、回答的处理及回答。条目“用户发声意图”表示用户的发声意图(用户要求)。条目“用于回答的处理”表示用于对用户的发声意图(用户要求)的回答的处理。条目“回答”表示对用户的发声的回答。
例如,在图6的示例中,如果用户发声意图为“设施的检索”,则设定有如下的回答:以识别出的设施名称实施检索,将检索结果以语音的方式进行应答。此外,如果用户发声意图为“设施的预约”,则由于其为语音代理100无法执行的用户要求,因此,在条目“用于回答的处理”和条目“回答”中,设定有表示未设定的“-”。
前进至步骤S16,切换指示部107例如以图7的流程图的处理步骤而对语音代理100的回答的可靠性进行评价。图7为回答可靠性评价处理的一个示例的流程图。
前进至步骤S101,切换指示部107对在图6的意图判断辞典112中是否登记有对用户的发声意图的回答进行判定。如果对用户的发声意图的回答并未被登记,则切换指示部107前进至步骤S102,将回答的可靠性评价为例如“0”。步骤S102中的回答的可靠性的评价“0”为一个示例,只要为小于步骤S17的阈值的值即可。当对用户的发声意图的回答被登记时,切换指示部107前进至步骤S103,并计算出与回答相对应的可靠性。
例如,如果发声文本为著名的娱乐场所的名称的一部分“YYY”,则由于“位置信息的检索”的候选为“YYY游乐园”或“YYY商店”等从而候选数较多,因此,会将回答的可靠性的评价设定得偏低。但是,例如优选为,在第一次的检索中将回答的可靠性的评价以不成为小于阈值的值的方式进行设定。如上文所述,如果在第一次的检索中将回答的可靠性的评价预先设定为不成为小于阈值的值,则语音代理100能够实施如下内容等的设施的再确认,即,“是YYY游乐园吗?是YYY商店吗?在除此之外的设施的情况下,请以正式名称说出。”。而且,通过在第二次以后的重新检索中,预先将回答的可靠性的评价设定为小于阈值的值,从而切换指示部107能够容许进行语音代理100的至少一次的设施的再确认。
返回至图5的步骤S17,切换指示部107对在步骤S16中所评价的回答的可靠性是否在阈值以下进行判定。如果未在阈值以下,则切换指示部107判定为,无需从语音代理100的对话服务切换至操作员的对话服务,从而进行用于使步骤S18的语音代理100实施回答的处理。语音代理100反复进行图5的流程图的处理,直至线路被切断、或被切换至操作员的对话服务。
在步骤S17中,如果在步骤S16中所评价的回答的可靠性在阈值以下,则切换指示部107前进至步骤S20,对被存储于对话经历存储部113中的语音代理100和用户的对话经历进行读取,并将对话经历的概要发送至操作员终端30。前进至步骤S21,如果回答的可靠性在阈值以下,则切换指示部107对呼叫连接控制部102实施指示,以使将车辆20的用户的通话目的地从语音代理100切换至操作员终端30。呼叫连接控制部102将用户的通话目的地从语音代理100切换至操作员终端30。
在步骤S22中,操作员终端30对例如如图8那样的操作员用的画面1000进行显示。图8为操作员用的画面的一个示例的概念图。图8的操作员用的画面1000中显示有与用户之间的对话经历的概要1002。通过参照操作员用的画面1000,操作员能够易于掌握语音代理100与用户的对话内容,从而能够顺利地实施交接。
例如,操作员用的画面1000优选以使用户要求和语音代理100对所述用户要求的回答相关联的方式进行显示。例如图8的操作员用的画面1000为,语音代理100与用户之间的对话内容为图9的这种情况的画面示例。
图9是表示语音代理或操作员与用户的对话内容的一个示例的说明图。在图9中,通过用户要求“意大利餐厅的预约”,从语音代理100的对话服务被切换至操作员的对话服务。对于用户的发声“请告诉我附近的餐厅”,语音代理100将回答“已为您调查。意大利餐厅XX、中餐厅ZZZ、YYY餐厅…”。
此外,对于用户的发声“预约意大利餐厅”,语音代理100会回答“连接至操作员”,并自动将用户的通话目的地切换至操作员终端30。在如图9那样的对话内容的情况下,图8的操作员用的画面1000会显示如图8那样的对话经历的概要1002。
根据本发明的实施方式所涉及的语音识别系统1,作为用户要求的初次受理,能够利用语音代理100。在此之后,当受理到设施的预约等的难以由语音代理100而进行适当的应对的用户要求时,语音代理100的回答的可靠性会变为阈值以下。因此,根据本发明的实施方式所涉及的语音识别系统1,当受理到难以通过语音代理100而进行适当的应对的用户要求时,能够自动将语音代理100的对话服务切换为操作员的对话服务。
本发明并不限定于已被具体公开的实施方式,在不脱离权利要求书的条件下能够进行各种改变或变更。例如,本发明的实施方式所涉及的语音识别系统1示出了对用户利用车载器22而与语音代理100或操作员进行对话的示例,但也可以利用智能手机等移动终端来进行对话。此外,在本发明的实施方式所涉及的语音识别系统1的中心10中所实施的语音识别、语素分析、意图判断、对意图的回答的评价等的处理,也可以在中心10之外进行,例如可以在车载器中进行。
Claims (5)
1.一种语音识别系统,其特征在于,具备:
呼叫连接控制装置,其对用户的通话目的地进行控制;
计算机,其以如下方式而构成,即,
对所述用户的发声语音数据进行语音识别,
基于所述发声语音数据的语音识别结果,对所述用户的发声意图进行判断,
基于判断出的所述用户的发声意图,对针对于所述用户而生成的回答的可靠性进行评价,
在所述回答的可靠性在阈值以下的情况下,通过所述呼叫连接控制装置而将所述用户的通话目的地切换至操作员终端,
在判断出的所述用户的发声意图被登记为关于检索的用户要求时,检索结果的候选的数量或重新检索的次数越多,则将所述回答的可靠性评价得越低。
2.如权利要求1所述的语音识别系统,其特征在于,
所述计算机被构成为,在将所述用户的通话目的地切换至所述操作员终端时,将包括所述用户的发声和所述计算机生成的回答在内的经历信息发送至所述操作员终端,并在所述操作员终端上进行显示。
3.如权利要求1或2所述的语音识别系统,其特征在于,
所述计算机被构成为,当判断出的所述用户的发声意图并未被登记为容许针对所述用户而生成回答的用户要求时,将所述用户的通话目的地切换至操作员终端。
4.如权利要求1或2所述的语音识别系统,其特征在于,
所述计算机被构成为,基于判断出的所述用户的发声意图而生成针对于所述用户而实施的回答,并对针对于所述用户而实施的回答进行语音合成。
5.一种语音识别方法,所述语音识别方法使用语音识别系统、呼叫连接控制装置、以及计算机,其中,所述语音识别系统对用户的发声语音数据进行语音识别,并基于所述发声语音数据的语音识别结果而对所述用户的发声意图进行判断,所述呼叫连接控制装置对用户的通话目的地进行控制,
所述语音识别方法的特征在于,包括:
基于所述语音识别系统所判断出的所述用户的发声意图,而对所述计算机针对于所述用户而生成的回答的可靠性进行评价的步骤;
在所述回答的可靠性在阈值以下的情况下,通过所述计算机而对所述呼叫连接控制装置进行控制,从而将所述用户的通话目的地切换至操作员终端的步骤;
在判断出的所述用户的发声意图被登记为关于检索的用户要求时,检索结果的候选的数量或重新检索的次数越多,则将所述回答的可靠性评价得越低的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-141765 | 2017-07-21 | ||
JP2017141765A JP6787269B2 (ja) | 2017-07-21 | 2017-07-21 | 音声認識システム及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109285541A CN109285541A (zh) | 2019-01-29 |
CN109285541B true CN109285541B (zh) | 2023-05-16 |
Family
ID=65014248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810769602.1A Active CN109285541B (zh) | 2017-07-21 | 2018-07-13 | 语音识别系统及语音识别方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10356245B2 (zh) |
JP (1) | JP6787269B2 (zh) |
CN (1) | CN109285541B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046267A (ja) * | 2017-09-04 | 2019-03-22 | トヨタ自動車株式会社 | 情報提供方法、情報提供システム、および情報提供装置 |
JP7340943B2 (ja) * | 2019-03-27 | 2023-09-08 | 本田技研工業株式会社 | エージェント装置、エージェント装置の制御方法、およびプログラム |
CA3149002A1 (en) | 2019-08-14 | 2021-02-18 | Liveperson, Inc. | Systems and methods for managing interaction invitations |
JP6920773B1 (ja) * | 2019-09-27 | 2021-08-18 | Tradfit株式会社 | 情報提供方法、情報提供システム、情報提供装置及びコンピュータプログラム |
JP7287258B2 (ja) * | 2019-12-10 | 2023-06-06 | トヨタ自動車株式会社 | エージェント管理装置、プログラムおよびエージェント管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125592A (ja) * | 1999-05-31 | 2001-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 |
JP2015049337A (ja) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | 音声応答装置、音声応答プログラム及び音声応答方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3608449B2 (ja) | 1999-09-09 | 2005-01-12 | 日本電信電話株式会社 | 音声応答方法及び装置及び音声応答プログラムを格納した記憶媒体 |
KR20010113919A (ko) * | 2000-03-09 | 2001-12-28 | 요트.게.아. 롤페즈 | 소비자 전자 시스템과의 대화 방법 |
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
US7844465B2 (en) * | 2004-11-30 | 2010-11-30 | Scansoft, Inc. | Random confirmation in speech based systems |
US20080154591A1 (en) * | 2005-02-04 | 2008-06-26 | Toshihiro Kujirai | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted |
JP4197344B2 (ja) * | 2006-02-20 | 2008-12-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声対話システム |
US7805305B2 (en) * | 2006-10-12 | 2010-09-28 | Nuance Communications, Inc. | Enhancement to Viterbi speech processing algorithm for hybrid speech models that conserves memory |
WO2010128560A1 (ja) * | 2009-05-08 | 2010-11-11 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR20110072847A (ko) * | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
JP5434731B2 (ja) | 2010-03-24 | 2014-03-05 | トヨタ自動車株式会社 | 音声認識システム及び自動検索システム |
JP6126870B2 (ja) * | 2013-03-01 | 2017-05-10 | 本田技研工業株式会社 | 音声対話システム及び音声対話方法 |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
JP6143883B2 (ja) * | 2013-11-29 | 2017-06-07 | 株式会社東芝 | 対話支援システム、方法、及びプログラム |
JP6351562B2 (ja) * | 2014-11-12 | 2018-07-04 | 株式会社アドバンスト・メディア | 情報処理システム、受付サーバ、情報処理方法及びプログラム |
US11829373B2 (en) * | 2015-02-20 | 2023-11-28 | Google Llc | Methods, systems, and media for presenting search results |
US10559303B2 (en) * | 2015-05-26 | 2020-02-11 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
-
2017
- 2017-07-21 JP JP2017141765A patent/JP6787269B2/ja active Active
-
2018
- 2018-06-07 US US16/002,732 patent/US10356245B2/en active Active
- 2018-07-13 CN CN201810769602.1A patent/CN109285541B/zh active Active
-
2019
- 2019-06-05 US US16/432,362 patent/US10863033B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125592A (ja) * | 1999-05-31 | 2001-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 |
CN105027197A (zh) * | 2013-03-15 | 2015-11-04 | 苹果公司 | 训练至少部分语音命令系统 |
JP2015049337A (ja) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | 音声応答装置、音声応答プログラム及び音声応答方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6787269B2 (ja) | 2020-11-18 |
US10863033B2 (en) | 2020-12-08 |
JP2019020683A (ja) | 2019-02-07 |
CN109285541A (zh) | 2019-01-29 |
US10356245B2 (en) | 2019-07-16 |
US20190289131A1 (en) | 2019-09-19 |
US20190028592A1 (en) | 2019-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109285541B (zh) | 语音识别系统及语音识别方法 | |
US11164570B2 (en) | Voice assistant tracking and activation | |
US9583100B2 (en) | Centralized speech logger analysis | |
JP5958475B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
CN100530355C (zh) | 用于基于语音识别的信息信号提供的方法和设备 | |
US8909153B2 (en) | Vehicle communications using a mobile device | |
US8972081B2 (en) | Remote operator assistance for one or more user commands in a vehicle | |
US20160284353A1 (en) | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system | |
US20200211560A1 (en) | Data Processing Device and Method for Performing Speech-Based Human Machine Interaction | |
CN105222797B (zh) | 利用口授和部分匹配搜索的导航系统的系统和方法 | |
JP7278980B2 (ja) | 支援装置、支援方法、およびプログラム | |
JP2009300537A (ja) | 音声作動システム、音声作動方法および車載装置 | |
CN105830151A (zh) | 用于产生控制命令的方法和系统 | |
CN104280042A (zh) | 获取导航信息的方法和装置 | |
KR101073190B1 (ko) | 분산 음성 인식 시스템을 이용한 텔레매틱스 시스템의정보 제공 시스템 및 방법 | |
JP2014062944A (ja) | 情報処理装置 | |
JP5698864B2 (ja) | ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム | |
US20020026319A1 (en) | Service mediating apparatus | |
JP6226911B2 (ja) | サーバ装置、システム、音声認識機能を管理するための方法、および、情報通信端末を制御するためのプログラム | |
KR20210095569A (ko) | 에이전트 시스템, 서버 및 컴퓨터 판독 가능한 기록 매체 | |
JP2005331608A (ja) | 情報処理装置および情報処理方法 | |
JP2017181667A (ja) | 音声認識装置および音声認識方法 | |
EP1524778A1 (en) | Method for communicating information from a server to a user via a mobile communication device running a dialog script | |
CN111726772B (zh) | 智能体系统及其控制方法、服务器装置、存储介质 | |
JP7451033B2 (ja) | データ処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |