CN109496332A - 语音对话装置、语音对话方法以及存储介质 - Google Patents
语音对话装置、语音对话方法以及存储介质 Download PDFInfo
- Publication number
- CN109496332A CN109496332A CN201780046486.4A CN201780046486A CN109496332A CN 109496332 A CN109496332 A CN 109496332A CN 201780046486 A CN201780046486 A CN 201780046486A CN 109496332 A CN109496332 A CN 109496332A
- Authority
- CN
- China
- Prior art keywords
- voice
- language
- conversation activity
- dialogue
- activity label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims description 170
- 238000000034 method Methods 0.000 title claims description 40
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 41
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 41
- 230000000694 effects Effects 0.000 claims description 450
- 230000008859 change Effects 0.000 claims description 18
- 238000009790 rate-determining step (RDS) Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 97
- 230000004044 response Effects 0.000 description 60
- 230000004048 modification Effects 0.000 description 44
- 238000012986 modification Methods 0.000 description 44
- 238000013519 translation Methods 0.000 description 38
- 230000005540 biological transmission Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 21
- 230000006399 behavior Effects 0.000 description 17
- 230000015654 memory Effects 0.000 description 17
- 230000005012 migration Effects 0.000 description 17
- 238000013508 migration Methods 0.000 description 17
- 238000010276 construction Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 11
- 238000012805 post-processing Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 238000002203 pretreatment Methods 0.000 description 8
- 239000004576 sand Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000428 dust Substances 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
在以往技术中,无法适当地辅助基于多个语言的语音对话。本发明能够通过语音对话装置,适当地辅助基于多个语言的语音对话,所述语音对话装置具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别输入语音的语言的语言识别符;语音识别部,根据输入语音以及语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句以及语言识别符生成语音波形;以及语音输出部,输出与语音合成部取得的语音波形相应的语音。
Description
技术领域
本发明涉及作为辅助使用多个语言的对话的语音对话装置的跨语言的语音对话装置等。
背景技术
将能够在混有基于多个语言的语音的情况下接管基于不同语言的对话的履历并生成语音的对话语句的系统称为跨语言语音对话系统。以往,存在使用加权有限状态转换器(WFST)的框架的跨语言语音对话系统(例如,参照非专利文献1)。
在先技术文献
非专利文献
非专利文献1:冈本拓磨,广江厚夫,堀智织,河井恒,“言語理解WFST並列連続に基づくクロスリンガル音声対話”,2015年秋季日本声学会研究发表会讲演论文集,pp.35~38,2015年9月。
发明内容
发明所要解决的技术问题
然而,在以往技术中,即使用户使用的语言(输入语言)切换,语音对话系统也接管对话的履历,但无法根据输入语言改变响应。另外,在以往技术中,在将语音对话装置用于电视电话或电视会议系统等的情况等、说不同语言的多个用户位于分离的场所的情况下,难以一边适当地利用语音对话装置一边进行人与人之间的通话。例如,在电视电话的进行过程中,一个用户对语音对话系统进行提问,系统对其回答,说其他语言的另一个用户对该回答用其他语言向系统提问,系统难以对其也适当地回答。
鉴于上述技术问题,本发明的目的在于适当地辅助基于多个语言的语音对话。
用于解决技术问题的方案
本申请的第一发明的语音对话装置具备:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别输入语音的语言的语言识别符;语音识别部,根据输入语音以及语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据输出语句与语言识别符生成语音波形;以及语音输出部,输出与语音合成部取得的语音波形相应的语音。
根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。
另外,相对于第一发明,本申请的第二发明的语音对话装置进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;对话控制部具备:第一对话行为标签取得单元,使用语音识别单元取得的字符串,从对话构造信息存储部中取得与字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、一个第二对话行为标签;语句取得单元,从输出语句信息存储部中取得与第二对话行为标签取得单元取得的第二对话行为标签相对应的语句;以及语句变更单元,根据语言识别符取得部取得的语言识别符变更语句取得单元取得的语句,并取得变更后的语句。
根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。
另外,相对于第一发明,本申请的第三发明的语音对话装置进一步具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签,并且所述对话构造信息具有与第一对话行为标签连接、且与语言识别符相对应的两个以上的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;对话控制部具备:第一对话行为标签取得单元,使用语音识别单元取得的字符串,从对话构造信息存储部中取得与字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、与语言识别符取得部取得的语言识别符相对应的一个第二对话行为标签;以及语句取得单元,从输出语句信息存储部中取得与第二对话行为标签取得单元取得的第二对话行为标签相对应的语句。
根据该结构,通过识别用户的使用语言,能够返回与用户相应的适当的响应。
另外,本申请的第四发明的服务器装置具备:受理部,从第一终端接收第一说话者的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语音识别部,对输入语音进行语音识别,取得字符串;输出目的地确定部,确定输出基于输入语音的信息的目的地;发送部,在输出目的地确定部确定的输出目的地为第二终端的情况下,将基于输入语音的信息发送至第二终端,在输出目的地确定部确定的输出目的地为语音对话装置的情况下,将语音识别部取得的字符串传送至语音对话装置;响应受理部,从语音对话装置受理与字符串相对应的响应;以及响应发送部,将响应受理部受理的响应发送至第一终端以及第二终端。
根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够进行将语音对话装置适当地用于电视电话与电视会议系统等中的对话。
另外,相对于第四发明,本申请的第五发明的服务器装置为如下的服务器装置:输出目的地确定部根据语音识别部取得的字符串中包含的一个以上的用语,确定输出基于输入语音的信息的目的地。
根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够进行将语音对话装置适当地用于电视电话与电视会议系统等中的对话。
另外,相对于第四发明,本申请的第六发明的服务器装置为如下的服务器装置:输出目的地确定部根据从第一终端发送的用户的指示,确定输出基于输入语音的信息的目的地。
根据该结构,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够在电视电话与电视会议系统等中一边适当地利用语音对话装置,一边进行人与人之间的通话以及人与装置之间的对话。
发明的效果
根据本发明的语音对话装置,能够适当地辅助基于多个语言的语音对话。
附图说明
图1是本发明的第一实施方式中的语音对话装置的框图。
图2是示出该实施方式中的语音对话装置的动作的流程图。
图3是示出该实施方式中的第一对话行为标签取得处理的动作的流程图。
图4是示出该实施方式中的第二对话行为标签取得处理的动作的流程图。
图5是示出该实施方式中的语句取得处理的动作的流程图。
图6是示出该实施方式中的语句变更处理的动作的流程图。
图7是示出该实施方式中的后处理的动作的流程图。
图8是示出该实施方式中的对话构造信息管理表的图。
图9是该实施方式中的对话状态迁移图。
图10是示出该实施方式中的语句对话行为信息管理表的图。
图11是示出该实施方式中的输出语句信息管理表的图。
图12是示出该实施方式中的关键词管理表的图。
图13是示出该实施方式中的输出语句变更信息管理表的图。
图14是本发明的第二实施方式中的语音对话装置的框图。
图15是示出该实施方式中的语音对话装置的动作的流程图。
图16是示出该实施方式中的第二对话行为标签取得处理的动作的流程图。
图17是示出该实施方式中的对话构造信息管理表的图。
图18是该实施方式中的对话状态迁移图。
图19是示出该实施方式中的输出语句信息管理表的图。
图20是本发明的第三实施方式中的服务器装置的框图。
图21是示出该实施方式中的服务器装置的动作的流程图。
图22是示出该实施方式中的输出目的地确定处理的图。
图23是示出上述实施方式中的计算机系统的外观的一例的图。
图24是示出上述实施方式中的计算机系统的内部结构的一例的图。
具体实施方式
下面,参照附图,对语音对话装置等的实施方式进行说明。此外,在实施方式中赋予了相同的附图标记的结构要素进行相同的动作,因此存在省略再次说明的情况。
(第一实施方式)
在本实施方式中,对在混有基于多个语言的语音的情况下,接管基于不同语言的对话的履历,生成并输出语音的对话语句的语音对话装置进行说明。另外,对所生成的对话语句根据语言而不同的语音对话装置进行说明。语音既可以是模拟数据也可以是数字数据。
另外,在本实施方式中,对使用对话构造信息、与对话行为标签相对应的语句的信息来实现跨语言的对话的语音对话装置进行说明。
另外,在本实施方式中,对能够输出符合在对话中出现的主题的对话语句的语音对话装置进行说明。
另外,在本实施方式中说明的对话构造信息例如具有有限状态转换器(FST)、加权有限状态转换器(WFST)的构造。
另外,在本实施方式中,还对通过积累并利用已进行的对话的信息即履历信息来输出适合于用户的语句的对话装置进行说明。在此,适合于用户是指,例如表示对于用户持否定态度的对象、在对话中出现过一次的对象的语句不作为对话语句被输出。此外,主题是指,将在后面进行说明的关键词,例如,语句中的名词(包括名词短语)等。
图1是本实施方式中的语音对话装置1的框图。语音对话装置1具备存储部11、受理部12、语言识别符取得部13、对话总括控制部14以及语音输出部15。存储部11具备对话构造信息存储部111、输出语句信息存储部112、当前节点识别符存储部115、动作单元存储部116、履历信息存储部117、语句对话行为信息存储部113以及输出语句变更信息存储部114。对话总括控制部14具备语音识别部1401、对话控制部141以及语音合成部1406。对话控制部141具备第一对话行为标签取得单元1402、第二对话行为标签取得单元1403、语句取得单元1404、语句变更单元1405、当前节点识别符更新单元1407、执行单元1408、履历信息取得单元1409以及履历信息积累单元1410。语句取得单元1404具备用语取得单元14041以及输出语句取得单元14042。
构成语音对话装置1的存储部11能够存储各种信息。各种信息是指,例如将在后面进行说明的对话构造信息、将在后面进行说明的输出语音信息、将在后面进行说明的当前节点识别符、将在后面进行说明的动作单元、将在后面进行说明的履历信息、将在后面进行说明的语句对话行为信息、将在后面进行说明的输出语句变更信息等。
对话构造信息存储部111能够存储一个或者两个以上的对话构造信息。对话构造信息是指,表示对话的关联的信息。对话构造信息具有一个以上的对话连接信息。对话连接信息具有对第一说话者(通常为用户)的输入语音进行抽象的第一对话行为标签、以及对第二说话者(通常为语音对话装置1)的输出语音进行抽象的第二对话行为标签。在此,第一说话者例如表示语音对话装置1的用户。第二说话者表示语音对话装置1内的虚拟说话者。另外,第一对话行为标签与第二对话行为标签中的某一个可以为空(将在后面进行说明的“eps”)。另外,输入语音或者输出语音的抽象是指,从构成输入语音或者输出语音的语句的意义、意思等的角度,按照种类对输入语音或者输出语音进行分类。此外,按照种类对输入语音或者输出语音进行分类是指,相对于输入语音或者输出语音,确定多个种类中的一个种类。而且,对输入语音或者输出语音进行了抽象的对话行为标签是表示对话行为的种类的信息,例如有“q.spot”、“q.weather”、“q.how-to-take”、“q.cost”、“thanks”等。q.spot是表示询问观光场所的提问的对话行为标签,q.weather是表示询问今天天气的提问的对话行为标签,q.how-to-take是表示询问如何前往目的地的提问的对话行为标签,q.cost是表示询问到目的地为止所需的金额的提问的对话行为标签,thanks是表示谢意的对话行为标签。第二说话者的输出语音通常是与第一说话者的输入语音相对应的响应的语音等。对话连接信息也可以具有起始端节点识别符、终止端节点识别符、第一对话行为标签和第二对话行为标签。另外,对话连接信息优选还具有表示从通过起始端节点识别符识别出的节点向通过终止端节点识别符识别出的节点迁移的概率的信息即权重信息。对话连接信息优选还进一步具有表示动作的信息即动作识别符。另外,对话连接信息也可以具有起始端节点识别符与终止端节点识别符,并且具有第一对话行为标签、第二对话行为标签、动作识别符中的一个以上的信息。动作识别符是指,例如函数名、方法名、执行模块名等。在此,节点表示概念性的对话的状态。此外,起始端节点识别符是指,识别表示对话的起始端的节点的信息。另外,终止端节点识别符是指,识别表示对话的终止端的节点的信息。通过起始端节点识别符与终止端节点识别符实现了一次对话的传达(catch ball)。即,从起始端节点识别符到终止端节点识别符的、被连接的一连串节点表示一次一连串的对话(例如为提问与回答的配对)。此外,表示对话的关联的信息也可以是指,通过对话连接信息中包含的起始端节点识别符与对话连接信息中包含的终止端节点识别符来表示关联的信息。进一步,表示对话的关联的信息也可以是通过有向链接将对话连接信息之间关联起来从而表示关联的信息。另外,动作识别符例如具有如下几个种类:对第一说话者输入的语句进行处理的前处理的动作识别符、对第二说话者的输出语句进行处理的后处理的动作识别符、进行其他一般处理的动作识别符等。进一步,动作识别符被应用的语句与信息也可以不同。
输出语句信息存储部112能够存储一个或者两个以上的输出语句信息。输出语句信息是构成输出语音的语句(以下称为输出语句)的信息。输出语句信息具有第二对话行为标签与一个以上的语句。另外,输出语句信息也可以具有第二对话行为标签、用语和一个以上的语句。另外,输出语句信息中包含的一个以上的语句也可以包括表示相同意思的、用多个语言表述的语句。另外,输出语句信息存储部112也可以保持关键词管理表。关键词管理表是用于检索或者构成输出语句的信息的集合,将在后面进行详细说明。
当前节点识别符存储部115能够存储识别表示当前对话状态的节点的当前节点识别符。在当前节点识别符存储部115中,通常最初存储有表示对话的开始点的节点识别符(例如“0”)。
动作单元存储部116存储有一个以上的动作单元。动作单元进行与动作识别符相对应的动作。动作单元是指,程序、执行模块、函数、方法、通过硬件来实现的处理电路等。动作单元例如进行语音识别、语音合成、机器翻译、履历积累、观光向导检索、日程安排、Web检索、天气预报检索、餐厅检索、票务预约等的动作。
履历信息存储部117能够存储与对话的履历相关的信息即履历信息。履历信息是指,例如已经出现的对话语句中的信息,例如为话题中提到的用语即已出用语等。
语句对话行为信息存储部113存储语句对话行为信息。语句对话行为信息是第一对话行为标签取得单元1402用于从语音识别部1401取得的文本中取得第一对话行为标签的信息。语句对话行为信息是包括表示第一对话行为标签与语句,或者第一对话行为标签与短语,或者第一对话行为标签与语句的构造的信息等的信息。
输出语句变更信息存储部114存储一个或者两个以上的输出语句变更信息。输出语句变更信息是用于变更输出语句的信息。输出语句变更信息是语句变更单元1405为了变更语句而使用的信息。输出语句变更信息是例如包括语言条件、变更范围以及变更内容的信息。在此,语言条件是指,与语言识别符取得部13取得的语言识别符相关的条件。语言条件例如可以是“语言识别符取得部13取得的语言识别符为特定的一个语言识别符”、“语言识别符13取得的语言识别符为多个语言识别符之一”、“语言识别符13取得的语言识别符为特定的一个语言识别符以外”这样的条件。另外,变更范围是指,确定作为变更对象的输出语句的一部分的信息。变更范围只要是确定输出语句的一部分的信息即可,可以是任意的,可以是字符串、单词、复合词、短语、段或者语句。另外,变更范围也可以是正规表现等的图案。另外,变更内容是指与变更的处理相关的信息。变更内容例如是表示“变更范围的删除”、“置换成指定有变更范围的文本”等具体的变更内容的信息。变更内容例如是删除、追加或者置换。在变更内容为追加或者置换的情况下,要追加或者置换的文本也被同时指定。进一步,在变更内容为追加的情况下,通常追加文本的位置也被同时指定。在此,要追加或者置换的文本可以是特定的字符串。另外,要追加或者置换的文本也可以包括使用了变更范围中包含的值的函数,如“(将变更范围中包含的数值设为人民币,将该数值以本日的汇率转换成日元而得到的数值)日元”。
受理部12从通过麦克风等输入的声音数据中,检测被推测为用户对语音对话系统讲话的区间(讲话区间),将从该讲话区间的起始端到终止端的声音数据发送至语音识别部1401。以下,将发声了输入语音的说话者称为第一说话者。即,受理部12受理第一说话者的输入语音。检测讲话区间的手段优选使用被称为Voice Activity Detection(VAD,语音端点检测)的已知技术。或者也可以仅在装置具备按压按钮且用户一边按压按钮一边讲话的情况下,将符合该时间点的声音数据的区间发送至语音识别部1401。或者也可以使用如下的公知技术:装置具备摄像机,取得用户的脸部图像,根据脸部图像的嘴唇部分的形状和动作来检测讲话区间。或者也可以受理输入语音以外的命令或信息(例如,语音对话装置1的启动指示等)。输入语音的输入单元通常是麦克风,但是只要是输入语音的单元即可,可以是任意的。受理部12能够通过麦克风等输入单元的设备驱动器与菜单画面的控制软件等来实现。
语言识别符取得部13取得受理部12受理的输入语音的语言识别符。语言识别符是识别语言的信息。语言识别符只要是能够识别语言的信息即可,可以是任意的。例如,作为与日语相对应的语言识别符,既可以使用“ja”,也可以使用“日语”。另外,对于识别语音的语言的手段,只要是基于i-vector的方法(N.Dehak,P.A.Torres-Carrasquillo,D.Reynolds,and R.Dehak,“Language recognition via ivectors and dimensionalityreduction,”in Proc.INTERSPEECH,Aug.2011,pp.857-860)或基于深层学习的方法(J.Gonzalez-Dominguez,I.Lopez-Moreno,P.J.Moreno,and J.Gonzalez-Rodriguez,“Frame-by-frame language identification in short utterances using deep neuralnetworks,”Neural Netw.,vol.64,pp.49-58,Apr.2015)等能够识别语音的语言的方法即可,可以是任意的。语言识别符取得部13的处理为公知技术,因此省略详细说明。
语音识别部1401对受理部12受理的第一说话者的输入语音进行语音识别,取得文本。语音识别部1401通常根据语言识别符取得部13取得的语言识别符,取得语音识别结果的文本。另外,语音识别部1401只要是能够将语音转换成与该语音相对应的文本的单元即可,可以是任意的。例如,可以按照每个语言分别准备语音识别器,语音识别部1401使用与语言识别符取得部13取得的语言识别符相对应的语音识别器识别语音。另外,语音识别部1401也可以是对应多语言的语音识别器。语音识别部1401进行的语音识别技术为公知技术,因此省略详细说明。此外,对受理部12受理的第一说话者的输入语音进行语音识别处理是指,对受理部12取得的语音数据进行语音识别处理。
对话控制部141根据语音识别部1401取得的语音识别结果的文本以及语言识别符取得部13取得的语言识别符,生成第二说话者的输出语句。生成第二说话者的输出语句是包括输出语句的选择与读出等在内的概念。优选为,即使第一说话者的输入语音的内容相同,如果语言识别符取得部13取得的语言识别符不同,则对话控制部141取得不同内容的输出语音。在该情况下,对话控制部141生成的输出语句例如是,根据第一说话者使用的语言通过语句变更单元1405变更了相对于第一说话者的输入语音的响应的语句。例如,在第一说话者询问有关日本的地理信息,该回答包括“北海道”并且第一说话者使用了日语以外的语言的情况下,追加相对于“北海道”的补充信息则更显亲切。这是因为,第一说话者有可能对日本的地理不了解。在此,补充信息是指,例如表示“北海道位于日本的北部”之意的信息。另一方面,如果第一说话者使用了日语,则该补充信息有可能显得多余,因此省略比较好。另外,例如,在检索、介绍餐厅的语音对话装置中,认为对食物的喜好根据说话者的国籍而不同,进一步可认为能够根据第一说话者的输入语言来进行某种程度的推定。作为具体的例子,存在如下情况:即在第一说话者向语音对话装置1发出表示“祇园在哪里?”之意的输出语句之后,接收到表示“请告诉我那附近的餐厅”之意的输出语句的情况下,最好根据第一说话者使用的语言是日语还是中文还是阿拉伯语,来改变响应的内容即要介绍的店铺。
第一对话行为标签取得单元1402从与语音识别部1401识别出的语音相对应的文本中,取得与该文本相对应的第一对话行为标签。第一对话行为标签取得单元1402只要是能够从文本转换成对应的第一对话行为标签的单元即可,可以是任意的。例如,可以按照每个语言分别准备转换器,第一对话行为标签取得单元1402使用与语言识别符取得部13取得的语言识别符相对应的转换器转换成第一对话行为标签。另外,第一对话行为标签取得单元1402也可以是对应多语言的转换器。以下,将语音识别部1401从受理部12受理的第一说话者的输入语音中取得的文本称为输入语音文本。第一对话行为标签取得单元1402对输入语音文本例如进行自然语言处理,取得第一对话行为标签。第一对话行为标签取得单元1402例如检索存储在语句对话行为信息存储部113中的语句对话行为信息,取得与输入语音文本成对的对话行为标签。另外,第一对话行为标签取得单元1402例如对输入语音文本进行词素解析,取得与包括一部分词素(例如,作为语句“京都可以吗?”的一部分词素的“可以吗?”)的语句成对的对话行为标签。另外,第一对话行为标签取得单元1402例如对输入语音文本的一部分与语句对话行为信息进行图案匹配,取得匹配(包括部分一致)的语句对话行为信息中包含的对话行为标签。该取得的对话行为标签为第一对话行为标签。
第二对话行为标签取得单元1403取得与第一对话行为标签取得单元1402取得的第一对话行为标签相对应的一个第二对话行为标签。另外,第二对话行为标签取得单元1403优选取得对应于与存储在当前节点识别符存储部115中的当前节点识别符一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签相对应的一个第二对话行为标签。第二对话行为标签取得单元1403优选在存在两个以上的作为取得的候补的第二对话行为标签的情况下,使用权重信息选择与表示较高的迁移概率的权重信息成对的第二对话行为标签。第二对话行为标签取得单元1403也可以在存在两个以上的作为取得的候补的第二对话行为标签的情况下,例如使用与通过当前节点识别符识别出的节点的两个以上之前的起始端节点识别符相对应的权重信息,应用DP(动态计划法)算法,使用累积在路径内的权重信息的合计即累积权重信息,取得与表示最高迁移概率的累积权重信息相对应的路径中包含的第二对话行为标签。进一步,第二对话行为标签取得单元1403也可以在对话的开始取得与初始节点(例如,与将在后面进行说明的起始端节点识别符“0”相对应的节点)相对应的第二对话行为标签。
语句取得单元1404从输出语句信息存储部112中取得与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的语句。另外,语句取得单元1404例如从与语音识别部1401识别出的输入语音相对应的文本(输入语音文本)中取得一个以上的用语,使用该一个以上的用语与第二对话行为标签,从输出语句信息存储部112中取得语句。另外,语句取得单元1404优选使用履历信息,从输出语句信息存储部112中取得与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的语句。例如,语句取得单元1404从输出语句信息存储部112中取得与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的语句。语句取得单元1404既可以选择并取得多个语句中的一个以上,也可以取得全部两个以上的语句。
用语取得单元14041从与语音识别部1401识别出的输入语音相对应的文本(输入语音文本)中取得用语。用语取得单元14041例如对输入语音文本进行词素解析,取得构成输入语音文本的名词等。
输出语句取得单元14042从输出语句信息存储部112中取得与用语取得单元14041取得的用语相对应、并且与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的语句。输出语句取得单元14042优选使用履历信息,从输出语句信息存储部112中取得与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的语句。
语句变更单元1405根据语言识别符取得部13取得的语言识别符,变更语句取得单元1404取得的语句,并取得变更后的语句。另外,语句变更单元1405可以对语句取得单元1404取得的输出语句与输出语句变更信息存储部114的输出语句变更信息进行图案匹配,根据匹配(也包括部分一致)的输出语句变更信息来变更输出语句。
语音合成部1406取得语句变更单元1405取得的输出语句的语音波形。语音合成部1406通常使用语音合成处理来取得与输出语句相对应的语音波形。语音合成处理为公知技术,因此省略说明。语音合成部1406只要是能够从文本中取得对应的语音波形的单元即可,可以是任意的。例如,可以按照每个语言分别准备合成器,语音合成部1406使用与语言识别符取得部13取得的语言识别符相对应的合成器,取得语音波形。另外,语音合成部1406也可以是对应多语言的合成器。
当前节点识别符更新单元1407将与对应于语句取得单元1404取得的输出语句的第二对话行为标签成对的终止端节点识别符,改写为当前节点识别符存储部115的当前节点识别符。
执行单元1408取得与第二对话行为标签取得单元1403选择的第二对话行为标签相对应的动作识别符,执行与该动作识别符相对应的动作单元。执行单元1408也可以对于受理部12受理的第一说话者的输入语音,执行与预先确定的动作识别符相对应的动作单元。将该处理适当地称为前处理。执行单元1408例如进行函数的调用处理、方法的执行处理、执行模块的启动处理等的处理。
履历信息取得单元1409从受理部12受理的第一说话者的输入语音中取得履历信息。履历信息取得单元1409例如从语音识别部1401自第一说话者的输入语音取得的文本中取得名词等,作为履历信息。另外,履历信息既可以区分说话者来取得,也可以将说话者按照使用语言等分组,按每个组取得,也可以不区分说话者与使用语言来取得。
履历信息积累单元1410将履历信息取得单元1409取得的履历信息积累到履历信息存储部117中。
语音输出部15输出语音合成部1406生成的语音波形。此外,可以认为此处的语音波形的输出是与波形相应的声音的输出。语音输出部15也可以在语言识别符取得部13取得了语言识别符的情况下,仅输出与该语言识别符相对应的语言的输出语句。另外,语音输出部15也可以在既取得了通过语音合成部1406生成的语音波形,又取得了通过对话控制部141生成的输出语句的情况下,在输出语音波形的同时输出输出语句。另外,输出是指包括从扬声器等的声音输出、显示在显示器上、使用投影仪投影、用打印机打印、发送至外部装置、保存到存储介质、向其他处理装置或其他程序等传送处理结果等在内的概念。可以认为语音输出部15包括显示器与扬声器等的输出设备,也可认为不包括。语音输出部15能够通过输出设备的驱动软件或者输出设备的驱动软件与输出设备等来实现。
存储部11、对话构造信息存储部111、输出语句信息存储部112、当前节点识别符存储部115、动作单元存储部116、履历信息存储部117、语句对话行为信息存储部113以及输出语句变更信息存储部114优选为非易失性的存储介质,但是也能够通过易失性的存储介质来实现。另外,各种信息被存储到存储部11等的过程不限。例如,既可以通过存储介质将信息存储在存储部11等中,也可以将经由通信线路等发送的信息存储在对话构造信息存储部111等中,或者还可以将通过输入设备输入的信息存储在存储部11等中。
语言识别符取得部13、对话总括控制部14、语音识别部1401、对话控制部141、语音合成部1406、第一对话行为标签取得单元1402、第二对话行为标签取得单元1403、语句取得单元1404、语句变更单元1405、当前节点识别符更新单元1407、执行单元1408、履历信息取得单元1409、履历信息积累单元1410、用语取得单元14041以及输出语句取得单元14042通常能够由MPU和存储器等来实现。另外,语言识别符取得部13等的处理步骤通常通过软件来实现,该软件存储在ROM等的存储介质中。但是,也可以通过硬件(专用电路)来实现。
接下来,使用图2的流程图,对语音对话装置1的动作进行说明。
(步骤S201)受理部12从通过麦克风等输入的声音数据中,检测被推测为用户对语音对话系统讲话的区间(讲话区间)。在检测到讲话区间的情况下进入步骤S202,在未检测到的情况下返回步骤S201。
(步骤S202)语言识别符取得部13对于在步骤S201中检测到的讲话区间进行语言识别处理,取得第一说话者的输入语音的语言识别符。
(步骤S203)执行单元1408进行前处理。前处理是指,对于在步骤S201中受理的输入语音执行与预先确定的动作识别符相对应的动作单元。此外,例如,执行单元1408执行噪声去除,去除输入语音中包含的噪声。
(步骤S204)语音识别部1401对于用户的输入语音执行语音识别,取得与第一说话者的输入语音相对应的文本。
(步骤S205)第一对话行为标签取得单元1402对于在步骤S204中取得的文本进行自然语言处理,取得第一对话行为标签。将该处理称为第一对话行为标签取得处理。使用图3的流程图,对第一对话行为标签取得处理的详细进行说明。
(步骤S206)第二对话行为标签取得单元1403取得与在步骤S205中取得的第一对话行为标签相对应的一个第二对话行为标签。将该处理称为第二对话行为标签取得处理。使用图4的流程图,对第二对话行为标签取得处理的详细进行说明。此外,在本步骤中,也可能存在无法取得第二对话行为标签的情况。
(步骤S207)对话总括控制部14在能够在步骤S206中取得第二对话行为标签的情况下进入步骤S208,在未能取得的情况下进入步骤S212。此外,在未能取得第二对话行为标签的情况下直接跳到S212意味着输出语句以及语音均不输出。也可以取而代之,输出表示输出为“空”的特殊符号,之后跳到步骤S212。
(步骤S208)语句取得单元1404从输出语句信息存储部112中取得与在步骤S206中取得的第二对话行为标签相对应的输出语句。将该处理称为语句取得处理。使用图5的流程图,对语句取得处理的详细进行说明。
(步骤S209)语句变更单元1405根据在步骤S202中取得的语言识别符变更在步骤S208中取得的输出语句,并取得变更后的输出语句。将该处理称为语句变更处理。使用图6的流程图,对语句变更处理的详细进行说明。此外,当在步骤S208中取得的输出语句中没有需要变更的部分时,语句变更单元1405直接取得在步骤S208中取得的语句。
(步骤S210)语音合成部1406生成与在步骤S209中取得的输出语句相对应的语音波形。
(步骤S211)语音输出部15输出在步骤S210中取得的语音波形。此处的输出既可以是向语音对话装置1的扬声器等的声音输出,也可以是向其他程序等传送语音波形的处理等。
(步骤S212)执行单元1408进行所谓的后处理。使用图7的流程图,对后处理的详细进行说明。之后,返回步骤S201。此外,通过返回步骤S201,用户与语音对话装置1之间的对话连续不断地进行。
此外,在图2的流程图中,存在无前处理的情况。
另外,在图2的流程图中,在步骤S212的后处理之后,返回到步骤S201。但是,也可以直到进入受理来自用户的输入语音的节点(状态)为止(直到进入受理来自用户的输入语音的对话连接信息为止),处理对话构造信息存储部111的相关联的对话连接信息。该处理是从步骤S205到步骤S212的处理。将在后面进行说明的具体例中对其详细进行说明。
另外,在图2的流程图中,也可以从步骤S206开始处理。
进一步,在图2的流程图中,处理通过电源关闭或处理结束的中断而结束。
接下来,使用图3的流程图,对步骤S205的第一对话行为标签取得处理的详细的具体例进行说明。
(步骤S301)第一对话行为标签取得单元1402对在步骤S204中取得的文本进行词素解析,得到一个以上的词素的列。
(步骤S302)第一对话行为标签取得单元1402将1代入计数器i。
(步骤S303)第一对话行为标签取得单元1402判断在步骤S301中得到的一个以上的词素列中是否存在第i个词素。如果存在第i个词素则进入步骤S304,如果不存在第i个词素则返回上级处理。此外,优选在返回上级处理之前,向未被赋予对话行为标签的词素赋予对话行为标签“eps”。
(步骤S304)第一对话行为标签取得单元1402将i代入计数器j。
(步骤S305)第一对话行为标签取得单元1402将部分词素列作为关键词,检索语句对话行为信息存储部113。在此,部分词素列是指在步骤S301中取得的词素列的、从第i个到第j个词素的列。
(步骤S306)第一对话行为标签取得单元1402判断语句对话行为信息存储部113中的任意语句对话行为信息是否符合作为关键词的部分词素列。如果符合则进入步骤S307,如果不符合则进入步骤S308。此外,符合既可以是完全一致,也可以是部分一致。另外,优选即使是表现的起伏与近义词等也视作符合来处理。表现的起伏与近义词等的处理是公知技术,因此省略详细说明。
(步骤S307)第一对话行为标签取得单元1402取得在步骤S306中符合的语句对话行为信息中包含的对话行为标签,返回上级处理。
(步骤S308)第一对话行为标签取得单元1402判断是否存在第j+1个词素。如果存在第j+1个词素则进入步骤S309,如果不存在第j+1个词素则进入步骤S310。
(步骤S309)第一对话行为标签取得单元1402使计数器j仅增加1,返回步骤S305。
(步骤S310)第一对话行为标签取得单元1402向第i个词素赋予对话行为标签“eps”。
(步骤S311)第一对话行为标签取得单元1402使计数器i仅增加1,返回步骤S303。
接下来,使用图4的流程图,对步骤S206的第二对话行为标签取得处理的详细进行说明。
(步骤S401)第二对话行为标签取得单元1403读取存储在当前节点识别符存储部115中的当前节点识别符。接下来,从对话构造信息存储部111中取得对应于与该当前节点识别符一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签相对应的一个以上的第二对话行为标签。
(步骤S402)第二对话行为标签取得单元1403将1代入计数器i。
(步骤S403)第二对话行为标签取得单元1403判断在步骤S401中取得的一个以上的第二对话行为标签中是否存在与第i个表示高迁移概率的权重信息成对的第二对话行为标签。如果存在该第二对话行为标签则进入步骤S404,如果不存在则进入步骤S407。此外,该判断通过参照对话构造信息存储部111的对话构造信息来进行。
(步骤S404)第二对话行为标签取得单元1403从在步骤S401中取得的一个以上的第二对话行为标签中,取得与第i个表示高迁移概率的权重信息成对的第二对话行为标签,配置在存储器上。
(步骤S405)第二对话行为标签取得单元1403判断是否输出了对应于与第i个表示高迁移概率的权重信息成对的第二对话行为标签的语句(是否已经处理了与第i个表示高迁移概率的权重信息成对的第二对话行为标签)。如果已经处理则进入步骤S406,如果未处理则进入步骤S408。
(步骤S406)第二对话行为标签取得单元1403使计数器i仅增加1,返回步骤S403。
(步骤S407)第二对话行为标签取得单元1403将默认的第二对话行为标签确定为最终的第二对话行为标签。默认的第二对话行为标签是指,例如从语音对话装置1向用户表示确认的“Confirm(确认)”等。返回上级处理。此外,在不经由步骤S407的情况下,无需预先存储默认的第二对话行为标签。
(步骤S408)第二对话行为标签取得单元1403将与第i个表示高迁移概率的权重信息成对的第二对话行为标签确定为最终的第二对话行为标签,返回上级处理。
此外,在图4的流程图中,例如假设在已被处理的第二对话行为标签中附有标记。
接下来,使用图5的流程图,对步骤S208的语句取得处理的详细进行说明。
(步骤S501)语句取得单元1404取得第二对话行为标签取得单元1403最终确定的第二对话行为标签。
(步骤S502)用语取得单元14041从在语音识别部1401中取得的输入语音文本中取得用语。此处的用语例如是构成输入语音文本的名词等。用语取得单元14041对输入语音文本进行词素解析,提取构成语句的名词等。此外,从语句取得名词等的技术为公知技术,因此省略详细说明。
(步骤S503)输出语句取得单元14042从输出语句信息存储部112中取得与用语取得单元14041取得的用语相对应、并且与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的一个以上的语句。
(步骤S504)输出语句取得单元14042从履历信息存储部117中读取履历信息。此时,优选不读取不与步骤S201受理的输入语音的说话者或该输入语音的语言相对应的履历信息。
(步骤S505)输出语句取得单元14042从在步骤S503中取得的一个以上的语句中,提取与在步骤S504中取得的履历信息中包含的用语相对应的语句。
(步骤S506)输出语句取得单元14042从剩余的语句中取得一个以上的语句。在此,如果剩余的语句为一个语句,则输出语句取得单元14042取得该一个语句。另外,如果剩余的语句为两个语句以上,则输出语句取得单元14042既可以选择并取得一个语句,也可以取得两个语句中的几个或者全部。取得后返回上级处理。
此外,在图5的流程图中,也可以不存在履历信息。在该情况下,输出语句取得单元14042从在步骤S503中取得的一个以上的语句中最终取得一个语句或者两个以上的语句。
另外,在图5的流程图的步骤S502中,也可以无法取得用语。在该情况下,输出语句取得单元14042从输出语句信息存储部112中取得与第二对话行为标签取得单元1403取得的第二对话行为标签相对应的一个以上的语句。
接下来,使用图6的流程图,对步骤S209的语句变更处理的详细进行说明。
(步骤S601)语句变更单元1405将1代入计数器i。
(步骤S602)语句变更单元1405判断在输出语句变更信息存储部114中是否存在第i个输出语句变更信息。如果存在第i个输出语句变更信息则进入步骤S603,如果不存在第i个输出语句变更信息则返回上级处理。此外,在未在步骤S208中取得输出语句的情况下,也返回上级处理。
(步骤S603)语句变更单元1405从输出语句变更信息存储部114中取得第i个输出语句变更信息。
(步骤S604)语句变更单元1405判断在步骤S202中取得的语言识别符是否满足第i个输出语句变更信息的语言条件,并且在输出语句中是否存在包括该输出语句变更信息的变更范围的部分。在满足语言条件并且包括变更范围的情况下,进入步骤S605,在除此之外的情况下,进入步骤S606。
(步骤S605)语句变更单元1405按照第i个输出语句变更信息中包含的变更内容来变更输出语句。
(步骤S606)语句变更单元1405使计数器i仅增加1,返回步骤S602。
接下来,使用图7的流程图,对步骤S212的后处理的详细进行说明。
(步骤S701)当前节点识别符更新单元1407从对话构造信息存储部111中取得与对应于对话控制部141输出的语句的第二对话行为标签成对的终止端节点识别符,配置在存储器上。
(步骤S702)当前节点识别符更新单元1407将在步骤S701中取得的终止端节点识别符改写为当前节点识别符存储部115的当前节点识别符。
(步骤S703)执行单元1408从对话构造信息存储部111中取得与第二对话行为标签取得单元1403选择的第二对话行为标签相对应的一个以上的动作识别符。
(步骤S704)执行单元1408判断在步骤S703中取得的一个以上的动作识别符是否存在。如果存在一个以上的动作识别符则进入步骤S705,如果不存在则进入步骤S706。
(步骤S705)执行单元1408执行与在步骤S703中取得的一个以上的动作识别符相对应的动作单元。
(步骤S706)履历信息取得单元1409从语音识别部1401取得的输入语音文本中取得关键词。此外,关键词例如是语句中的名词等。履历信息的取得方法不限。
(步骤S707)履历信息取得单元1409使用取得的关键词等来构成履历信息。
(步骤S708)履历信息积累单元1410将在步骤S707中取得的履历信息积累在履历信息存储部117,返回上级处理。
以下,对本实施方式中的语音对话装置1的具体动作进行说明。
此刻,对话构造信息存储部111存储有图8所示的对话构造信息管理表。对话构造信息管理表保持有一个以上的对话连接信息的记录。对话连接信息具有“ID”、“起始端节点识别符”、“终止端节点识别符”、“第一对话行为标签”、“第二对话行为标签”、“权重信息”、“动作识别符”的属性。此外,对话连接信息具有“起始端节点识别符”、“终止端节点识别符”的属性值,并且具有“第一对话行为标签”、“第二对话行为标签”、“动作识别符”中的一个以上的属性值。另外,也可以不存在“权重信息”的属性值。另外,在图8中,“第一对话行为标签”、“第二对话行为标签”的“-”为NULL。另外,在作为“动作识别符”的属性值没有记载的情况下,“动作识别符”也为NULL。进一步,虽然未进行图示,但是对话连接信息的记录也可以具有输入等待标记,该输入等待标记表示是用于等待来自用户的输入语音的输入的节点。在被赋予了输入等待标记的情况下,语音对话装置1在进行了对被设定有输入等待标记的记录的处理之后,等待来自用户的语音的输入。假设输入等待标记在图8中被赋予给“ID=1、4、6、7、9、10”的记录。
此外,图8所示的对话构造信息管理表的“动作识别符”中的“地点检索(用户)”表示检索与对应于输入语音的语言识别符的用户相应的观光场所的处理。另外,“地点检索(场所)”是检索与用户的当前位置相应的观光场所的处理。
进一步,通过图9所示的对话状态迁移图来示出图8所示的对话构造信息管理表。图9所示的对话状态迁移图为所谓的WFST。在图9所示的对话状态迁移图中,阴影节点(状态)是等待来自用户的语句的节点。另外,双圈的(0)是初始节点,是表示对话开始的节点。进一步,双圈的(8)是结束节点,是表示对话结束的节点。
另外,语句对话行为信息存储部113存储有图10所示的语句对话行为信息管理表。语句对话行为信息管理表具有“ID”、“第一对话行为标签”、“部分文本”。第一对话行为标签取得单元1402在语音识别部1401取得的文本中包含图10的各记录中的“部分文本”的情况下,取得该记录的第一对话行为标签。
另外,输出语句信息存储部112存储有图11所示的输出语句信息管理表。输出语句信息管理表具有“ID”、“输出语句信息”。“输出语句信息”具有“对话行为标签”与日语、英语、中文的“输出语句”。在“输出语句”中,<>内的信息表示内部变量的值被代入。内部变量例如是表示地点的检索结果的<spot>、表示天气的<weather>、表示开始地点的<from>、表示时间的<time>、表示交通工具的<trans>、表示金额的<cost>等。
另外,输出语句信息存储部112保持有图12所示的关键词管理表。关键词管理表是对于语音对话装置1所进行的任务(某话题)存储有可能成为关键词的信息的表。在图12中,存储有具有“ranking”、“spot”、“from”、“time”、“trans”、“cost”等属性的多个记录。在此,语音对话装置1所进行的任务是日本的观光向导。“ranking”是表示在日本观光中的地点的人气度的信息。“spot”、“from”、“time”、“trans”、“cost”是将各地点的信息模型化的信息。“spot”是观光地点。“from”是前往该观光地点的出发地。“time”是使用将在后面进行说明的交通工具从该出发地前往该观光地点时所需的时间。“trans”是用于从该出发地前往该观光地点的交通工具。“cost”是使用该交通工具从该出发地前往该观光地点时所需的费用。
如将在后面进行的说明那样,语音对话系统需要知道日语的“京都”与英语的“Kyoto”与中文“京都”是相对应的关键词。同样地,需要知道“飛行機”(日语)与“airplane”(英语)与“飞机”(中文)相互对应。为了实现这些,在图12的表的各栏中记载有在各国语言中对应的关键词。
另外,输出语句变更信息存储部114保持有图13所示的输出语句变更信息管理表。输出语句变更信息管理表具有“ID”、“输出语句变更信息”。“输出语句变更信息”具有“语言条件”、“变更范围”和“变更内容”。在“语言条件”中,“Lang=语言L”表示语言识别符为语言L的条件。另外,“(%d)”是表示数值的字符串,“yuan_to_yen($1)”表示将表示该数值的字符串假设为表示人民币的数值并将该数值转换成日元的函数。图13中的“类型=追加”表示在输出语句的语言与“语言条件”一致的情况下,在“场所”所表示的输出语句的位置追加“内容”的文本。在该图中,除了日语以外,在输出语句中包含与“北海道”相对应的关键词的情况下,追加表示“北海道位于日本的北部”之意的一个语句。
下面,对在该状况下,说“日语”、“英语”、“中文”的各语言的三个用户(三个第一说话者)在“东京”使用语音对话装置1的实施例进行说明。
假设用户接通了语音对话装置1的电源。于是,语音对话装置1的第二对话行为标签取得单元1403从图8的对话构造信息管理表中取得与初始节点相对应的第二对话行为标签“intro”。在此,初始节点例如是与起始端节点识别符“0”相对应的节点。
接下来,语句取得单元1404从图11的输出语句信息管理表中取得与已取得的第二对话行为标签“intro”相对应的输出语句“こんにちは。”、“Hello.”、“你好。”。
接下来,语句变更单元1405从输出语句变更信息管理表中查找与输出语句匹配的输出语句变更信息,但由于语言识别符取得部13未取得语言识别符,因此不进行输出语句的变更。
接下来,语音合成部1406将输出语句转换成语音,传送至语音输出部15。然后,由于语言识别符取得部13未取得语言识别符,因此语音输出部15输出全部语言的语句的语音。
接下来,当前节点识别符更新单元1407从对话构造信息存储部111中取得与对应于语音输出部15输出的语句的第二对话行为标签“intro”成对的终止端节点识别符“1”,配置在存储器上。进一步,当前节点识别符更新单元1407将取得的终止端节点识别符“1”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设说日语的用户向语音对话装置1输入语音“おすすめの観光スポットは?”(日语,意为“推荐的观光地点是?”)。
对于该语音讲话,受理部12检测讲话区间,得到与该区间相对应的语音数据。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“日语”。进一步,语音识别部1401进行语音识别处理,得到输入语音文本“おすすめの観光スポットは”。
接下来,第一对话行为标签取得单元1402以如下方式取得与“おすすめの観光スポットは”相对应的第一语言标签。首先,第一对话行为标签取得单元1402对输入语音文本“おすすめの観光スポットは”进行词素解析。然后,第一对话行为标签取得单元1402参照图10的语句对话行为信息管理表,按照图3的流程图,从最前面的词素按顺序赋予第一对话行为标签,得到“おすすめ(eps),の(eps)観光スポット(q.spot)”。接下来,第一对话行为标签取得单元1402将与“おすすめの観光スポットは”相对应的第一对话行为标签确定为“q.spot”。在此,第一对话行为标签取得单元1402忽略第一对话行为标签(eps),采用(q.spot)。
接下来,第二对话行为标签取得单元1403取得与已取得的第一对话行为标签“q.spot”相对应的一个第二对话行为标签。具体而言,第二对话行为标签取得单元1403读取存储在当前节点识别符存储部115中的当前节点识别符“1”,配置在存储器上。
接下来,作为对应于与取得的当前节点识别符“1”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“q.spot”相对应的迁移目的地,第二对话行为标签取得单元1403取得图8的对话构造信息管理表的“ID=2”与“ID=3”两个迁移目的地作为候补。第二对话行为标签取得单元1403使用权重信息“1/4”与“3/4”,选择与表示高的迁移概率的权重信息“3/4”成对的“ID=3”作为迁移目的地,不取得第二对话行为标签。因此,不进行输出语句的取得、输出。
接下来,当前节点识别符更新单元1407将取得的终止端节点识别符“3”改写为当前节点识别符存储部115的当前节点识别符。
接下来,执行单元1408从对话构造信息存储部111中取得“ID=3”的记录内的动作识别符“地点检索(场所)”。然后,执行单元1408执行与取得的动作识别符“地点检索(场所)”相对应的动作单元。假设该检索的结果为检索出与图12的关键词管理表的“Ranking=1”相对应的“日语:京都,英语:Kyoto,中文:京都”。
进一步,将迁移到下一个节点。也就是说,接下来第二对话行为标签取得单元1403取得对应于与存储在当前节点识别符存储部中的当前节点识别符“3”一致的起始端节点识别符的第二对话行为标签。即,访问图8的对话构造信息管理表的“ID=7”的记录,第二对话行为标签取得单元1403取得第二对话行为标签“a.spot”。
接下来,语句取得单元1404取得与已取得的第二对话行为标签“a.spot”相对应的语句的日语:“<spot>がおすすめです。”英语:“I recommend<spot>.”中文:“我的建议是<spot>。”。进一步,语句取得单元1404从之前的检索结果中将“京都”、“Kyoto”、“京都”分别代入日语、英语、中文的<spot>,生成语句“京都がおすすめです。”、“I recommendKyoto.”、“我的建议是京都。”。进一步,选择这三个语句中与取得的语言识别符“日语”相对应的“京都がおすすめです。”。
接下来,语句变更单元1405从输出语句变更信息管理表中查找与输出语句匹配的输出语句变更信息,但由于语言识别符取得部13未取得语言识别符,因此不进行输出语句的变更。
接下来,语音合成部1406生成与语句变更单元1405取得的语句“京都がおすすめです。”相对应的语音波形。
接下来,语音输出部15输出与“京都がおすすめです。”相对应的语音。
接下来,当前节点识别符更新单元1407从对话构造信息存储部111中取得与对应于语音输出部15输出的语句的第二对话行为标签“a.spot”成对的终止端节点识别符“4”,配置在存储器上。进一步,当前节点识别符更新单元1407将取得的终止端节点识别符“4”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设进行了刚才的语音输入的、说日语的用户将语音“ありがとう”(日语,意为“谢谢”)输入到语音对话装置1。
接下来,受理部12受理第一说话者的输入语音“ありがとう”。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“日语”。进一步,语音识别部1401进行语音识别处理,得到输入语音文本“ありがとう”。
接下来,第一对话行为标签取得单元1402取得与图10的语句对话行为信息管理表的“ID=3”的“ありがとう”相对应的第一对话行为标签“thanks”。
接下来,第二对话行为标签取得单元1403取得与已取得的第一对话行为标签“thanks”和存储在当前节点识别符存储部115的当前节点识别符“4”相对应的一个第二对话行为标签。由于在图8的对话构造信息管理表的“ID=8”中不存在第二对话行为标签,因此第二对话行为标签取得单元1403不取得第二对话行为标签。因此,不进行输出语句的取得、输出。
接下来,当前节点识别符更新单元1407将取得的终止端节点识别符“1”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设其他用户用英语向语音对话装置1语音输入“What do yourecommend for sightseeing?”(英语,意为“你推荐什么观光?”)。
接下来,受理部12受理与之前的日语的第一说话者不同的、第二个第一说话者的输入语音“What do you recommend for sightseeing?”。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“英语”。进一步,语音识别部1401执行语音识别处理,得到输入语音文本“What do you recommend for sightseeing?”。
接下来,第一对话行为标签取得单元1402以如下方式取得与“What do yourecommend for sightseeing?”相对应的第一对话行为标签。首先,第一对话行为标签取得单元1402对输入语音文本“What do you recommend for sightseeing?”进行词素解析。然后,第一对话行为标签取得单元1402参照图10的语句对话行为信息管理表,按照图3的流程图,从最前面的词素按顺序赋予第一对话行为标签,得到“What(eps)do(eps)you(eps)recommend for sightseeing(q.spot)”。接下来,第一对话行为标签取得单元1402将与“What do you recommend for sightseeing?”相对应的第一对话行为标签确定为“q.spot”。在此,第一对话行为标签取得单元1402忽略第一对话行为标签(eps),采用(q.spot)。
接下来,作为对应于与取得的当前节点识别符“1”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“q.spot”相对应的迁移目的地,第二对话行为标签取得单元1403取得图8的对话构造信息管理表的“ID=2”与“ID=3”两个迁移目的地作为候补。在该候补中,由于“ID=3”已经迁移,因此选择“ID=2”作为迁移目的地,不取得第二对话行为标签。因此,不进行输出语句的取得、输出。
接下来,当前节点识别符更新单元1407将取得的终止端节点识别符“2”改写为当前节点识别符存储部115的当前节点识别符。
接下来,执行单元1408从对话构造信息存储部111中取得“ID=2”的记录内的动作识别符“地点检索(用户)”。然后,执行单元1408执行与取得的动作识别符“地点检索(用户)”相对应的动作单元。假设该检索结果为检索出与图12的关键词管理表的“Ranking=2”相对应的“日语:北海道,英语:Hokkaido,中文:北海道”。
进一步,将迁移到下一个节点。也就是说,接下来第二对话行为标签取得单元1403取得对应于与存储在当前节点识别符存储部中的当前节点识别符“2”一致的起始端节点识别符的第二对话行为标签。即,访问图8的对话构造信息管理表的“ID=6”的记录,第二对话行为标签取得单元1403取得第二对话行为标签“a.spot”。
接下来,语句取得单元1404取得与已取得的第二对话行为标签“a.spot”相对应的语句的日语:“<spot>がおすすめです。”、英语:“I recommend<spot>.”、中文:“我的建议是<spot>。”。进一步,语句取得单元1404从之前的检索结果中将“北海道”、“Hokkaido”、“北海道”分别代入日语、英语、中文的<spot>,分别生成语句“北海道がおすすめです。”、“Irecommend Hokkaido.”、“我的建议是北海道。”。进一步,选择这三个语句中与取得的语言识别符“英语”相对应的“I recommend Hokkaido.”。
接下来,语句变更单元1405从图13的输出语句变更信息管理表中查找匹配的输出语句变更信息。于是,语句变更单元1405根据之前语言识别符取得部13取得的语言识别符“英语”满足语言条件,并且之前语句取得单元1404取得的语句中包含“Hokkaido”,判断为图13的“ID=1”匹配。进一步语句变更单元1405按照“ID=1”的输出语句变更信息的变更范围与变更内容,变更语句。具体而言,语句变更单元1405在包含变更范围“Hokkaido”的语句“I recommend Hokkaido.”的“句尾”追加“Hokkaido is located in the northern partof Japan.”(英语,意为“北海道位于日本的北部”)。其结果是,基于输出语句“I recommendHokkaido.”得到“I recommend Hokkaido.Hokkaido is located in the northern partof Japan.”。
接下来,语音合成部1406生成与语句变更单元1405取得的输出语句“I recommendHokkaido.Hokkaido is located in the northern part of Japan.”相对应的语音波形。
接下来,语音输出部15对语句变更单元1405取得的输出语句进行语音输出。此外,语音输出部15也可以根据语言识别符取得部13取得的语言识别符“英语”,语音输出“Irecommend Hokkaido.Hokkaido is located in the northern part of Japan.”。
此外,虽然在该例子中英语以外的输出语句未被选择而被废除,但是也可以不废除而输出全部语言的输出语句或者进行画面显示,也可以进一步转换成语音波形并输出。
接下来,当前节点识别符更新单元1407从对话构造信息存储部111中取得与对应于语音输出部15输出的语句的第二对话行为标签“a.spot”成对的终止端节点识别符“4”,配置在存储器上。
接下来,当前节点识别符更新单元1407将取得的终止端节点识别符“2”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设用户用日语向语音对话装置1语音输入“どれくらいかかる?”(日语,意为“需要多少?”)。在该例子中重要的是以下三点。
1、对于上一次英语说话者的提问“What do you recommend for sightseeing?”的回答,不仅以英语输出,还以日语与中文输出,听不懂英语的人也知道语音对话系统推荐北海道为观光地。
2、因此虽然这次日语说话者的提问中不包括目的地,但是在问前往北海道的所需时间或费用。
3、在语音对话系统中,由于上一次英语说话者的提问,在图9中内部状态迁移至节点识别符=4,因此虽然与上一次的输入语言不同,但是进行依存于上一次提问的响应生成。
对于该语音讲话,受理部12检测讲话区间,得到与该区间相对应的语音数据。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“日语”。进一步,语音识别部1401执行语音识别处理,得到输入语音文本“どれくらいかかる”。
接下来,由于这次的语音识别结果即“どのくらいかかる”与图10的语句对话行为信息管理表的“ID=7”相对应,因此第一对话行为标签取得单元1402取得第一对话行为标签“q.how-to-take”。
接下来,第二对话行为标签取得单元1403取得与已取得的第一对话行为标签“q.how-to-take”相对应的一个第二对话行为标签。具体而言,第二对话行为标签取得单元1403读取存储在当前节点识别符存储部115中的当前节点识别符“4”,配置在存储器上。
接下来,第二对话行为标签取得单元1403从图8的对话构造信息管理表中取得对应于与取得的当前节点识别符“4”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“q.how-to-take”相对应的第二对话行为标签“a.how-to-take”。
接下来,语句取得单元1404取得与已取得的第二对话行为标签“a.how-to-take”相对应的语句的日语:“<from>から<trans>で<time>かかります。”、英语:“It take<time>by<trans>from<from>.”、中文:“它需要<time>的<trans>从<from>。”。进一步,语句取得单元1404检索关键词管理表。根据在上一次的用户讲话中图2的“Ranking=2”的项目被选择的履历信息,得到以下值并分别如下所示代入:将日语:“東京”、英语:“Tokyo”、中文:“东京”代入到<from>,将日语:“飛行機”、英语:“airplane”、中文:“飞机”代入到<trans>,将日语:“4時間”、英语:“four hours”、中文:“四个小时”代入到<time>,从而取得日语:“東京から飛行機で4時間かかります”、英语:“It take four hours by airplane fromTokyo.”、中文:“它需要四个小时的飞机从东京”。进一步,选择这三个语句中与取得的语言识别符“日语”相对应的“東京から飛行機で4時間かかります”。
接下来,语句变更单元1405检索输出语句变更信息管理表,但是由于不存在匹配的输出语句变更信息,因此取得未进行任何变更的语句。
接下来,语音合成部1406生成与语句变更单元1405取得的语句“東京から飛行機で4時間かかります”相对应的语音波形。然后,语音输出部15语音输出“東京から飛行機で4時間かかります”。
之后,同样地,语音对话装置1与用户按照图8的对话构造信息管理表所示的WFST进行对话。
以上,根据本实施方式,语音对话装置1能够配合用户的使用语言进行适当的响应。另外,用户能够与语音对话装置1更加自然地连续不断地对话。
另外,在本实施方式中,根据用户的使用语言而应该补充或省略的信息作为输出语句变更信息分类为对话构造信息与输出语句信息。因此,通过变更输出语句变更信息,语音对话装置1能够在各种状况下配合用户的使用语言进行适当的响应。
另外,根据本实施方式,例如,由于将对话构造信息(对话状态的构造)与在对话中使用的语句的集合分离,因此,只要替换语句的集合就能够应对各种话题(任务)。
此外,在本实施方式中,虽然作为语言识别符的例子列举了日语与英语,但是也可以将语言按照使用的国家来区分语言,如英式英语与美式英语,也可以按照更加细化的地域来区分,如普通话与大阪方言。
另外,在本实施方式中,例如,也可以在存储于输出语句信息存储部112中的输出语句信息中包含的语句的一部分(与语句变更信息的变更范围相对应)中,包含和基于与输入语音相对应的语言的、语句的变更方法相关的信息即语句变更信息。该语句变更信息包括与输出语句变更信息相同的语言条件与变更内容。
进一步,本实施方式中的处理也可以通过软件来实现。而且,也可以通过软件下载等来发布该软件。另外,也可以将该软件存储在CD-ROM等的存储介质中进行传播。此外,该方法也适合本说明书中的其他实施方式。
此外,实现本实施方式中的语音对话装置1的软件为如下程序。也就是说,是一种使计算机作为以下各部发挥其功能的程序:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别所述输入语音的语言的语言识别符;语音识别部,根据所述输入语音以及所述语言识别符生成语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据所述输出语句以及所述语言识别符生成语音波形;以及语音输出部,输出与所述语音合成部生成的语音波形相应的语音。
另外,计算机能够访问的存储介质优选具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;在上述程序中,优选使计算机发挥如下功能,即,所述对话控制部具备:第一对话行为标签取得单元,使用所述语音识别单元取得的字符串,从所述对话构造信息存储部中取得与该字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与所述第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、一个第二对话行为标签;语句取得单元,从所述输出语句信息存储部中取得与所述第二对话行为标签取得单元取得的第二对话行为标签相对应的语句;以及语句变更单元,根据所述语言识别符取得部取得的语言识别符变更所述语句取得单元取得的语句,并取得变更后的语句。
(第二实施方式)
在本实施方式中,对如下的语音对话装置进行说明:即该语音对话装置与第一实施方式同样地,在混有基于多个语言的语音的情况下,接管基于不同语言的对话的履历,生成并输出语音的对话语句。
此外,在本实施方式中,对话构造信息的构造与第一实施方式不同。在本实施方式中,对如下的语音对话装置进行说明:即该语音对话装置能够使用具有与第一实施方式不同的构造的对话构造信息,根据语言将所生成的对话语句设置成不同的对话语句。
在第一实施方式中,不论用户以哪种语言讲话,只要是相同的内容,语音识别结果便被转换成相同的第一对话行为标签,进一步生成相同的第二对话行为标签。而且,在第二对话行为标签执行时生成全部语言的输出语句之后,选择与语言识别符相对应的输出语句,进一步进行依存于语言识别符的语句转换处理。与此相对地,在第二实施方式中,到转换成相同的第一对话行为标签为止相同,但使,之后根据语言识别符生成不同的第二对话行为标签。而且在第二对话行为标签执行时生成单一语言的输出语句。但是,在希望相对于特定的状况与特定的内容的讲话生成全部语言的输出语句的情况下,不依存于语言识别符而生成相同的第二对话行为标签。特定的状况是指,例如希望在装置启动时用各国语言语音合成该装置的介绍与使用注意事项等的情况等。
图14是本实施方式中的语音对话装置2的框图。语音对话装置2具备存储部21、受理部12、语言识别符取得部13、对话总括控制部24以及语音输出部15。存储部21具备对话构造信息存储部211、输出语句信息存储部112、当前节点识别符存储部115、动作单元存储部116、履历信息存储部117以及语句对话行为信息存储部113。对话总括控制部24具备语音识别部1401、对话控制部241以及语音合成部1406。对话控制部241具备第一对话行为标签取得单元1402、第二对话行为标签取得单元2403、语句取得单元1404、当前节点识别符更新单元1407、执行单元1408、履历信息取得单元1409以及履历信息积累单元1410。语句取得单元1404具备用语取得单元14041以及输出语句取得单元14042。
如上所述,语音对话装置2与语音对话装置1有一部分不同。具体而言,形成为将语音对话装置1的对话构造信息存储部111变更为对话构造信息存储部211,将第二对话行为标签取得单元1403变更为第二对话行为标签取得单元2403,而且去除了语句变更单元1405的语音对话装置2。
以下,仅对与语音对话装置1不同的部分进行解说。在语音对话装置2的各部中,被赋予与语音对话装置1相同附图标记的要素存储或者处理与语音对话装置1相同的信息。
对话构造信息存储部211与对话构造信息存储部111同样地,能够存储作为表示对话的关联的信息的对话构造信息。对话构造信息具有一个以上的对话连接信息。对话构造信息存储部211的对话连接信息具有对第一说话者(通常为用户)的输入语音进行抽象的第一对话行为标签、与第一说话者的输入语音相对应的语言识别符、以及对第二说话者(通常为语音对话装置2)的输出语音进行抽象的第二对话行为标签。在此,与第一说话者的输入语音相对应的语言识别符通常是指,语言识别符取得部13取得的、表示第一说话者的输入语音的语言的识别符。另外,第一对话行为标签与第二对话行为标签中的任意一个可以为空“eps”。另外,输入语音或者输出语音的抽象是指,从构成输入语音或者输出语音的语句的意义、意思等的角度,按照种类对输入语音或者输出语音进行分类。而且,对输入语音或者输出语音进行了抽象的对话行为标签是表示对话行为的种类的信息。关于对话行为标签的详细如已描述那样。第二说话者的输出语音通常是与第一说话者的输入语音相对应的响应的语音等。另外,对话连接信息也可以具有起始端节点识别符、终止端节点识别符、第一对话行为标签、第二对话行为标签以及语言识别符。另外,对话连接信息优选具有表示从通过起始端节点识别符识别出的节点向通过终止端节点识别符识别出的节点迁移的概率的信息即权重信息。对话连接信息优选进一步具有表示动作的信息即动作识别符。另外,对话连接信息也可以具有起始端节点识别符与终止端节点识别符,并且具有第一对话行为标签、第二对话行为标签、语言识别符、动作识别符中的一个以上的信息。动作识别符是指,例如函数名、方法名、执行模块名等。在此,节点表示概念性的对话的状态。此外,起始端节点识别符是指,识别表示对话的起始端的节点的信息。另外,终止端节点识别符是指,识别表示对话的终止端的节点的信息。此外,表示对话的关联的信息也可以是指,通过对话连接信息中包含的起始端节点识别符与对话连接信息中包含的终止端节点识别符来表示关联的信息。进一步,表示对话的关联的信息也可以是指,通过有向链接将对话连接信息之间关联起来从而表示关联的信息。另外,动作识别符具有如下几个种类:对第一说话者的输入语音进行处理的前处理的动作识别符、对第二说话者的输出语句进行处理的后处理的动作识别符、进行其他一般处理的动作识别符等。进一步,动作识别符被应用的语句与信息也可以不同。
第二对话行为标签取得单元2403取得与第一对话行为标签取得单元1402取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、与语言识别符取得部13取得的语言识别符相对应的一个第二对话行为标签。另外,第二对话行为标签取得单元2403优选取得对应于与存储在当前节点识别符存储部115中的当前节点识别符一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签相对应、并且与语言识别符取得部13取得的语言识别符相对应的一个第二对话行为标签。第二对话行为标签取得单元2403优选在存在两个以上的作为取得的候补的第二对话行为标签的情况下,使用权重信息选择与表示较高的迁移概率的权重信息成对的第二对话行为标签。第二对话行为标签取得单元2403也可以在存在两个以上的作为取得的候补的第二对话行为标签的情况下,例如使用与通过当前节点识别符识别出的节点的两个以上之前的起始端节点识别符相对应的权重信息,应用DP(动态计划法)算法,使用累积在路径内的权重信息的合计即累积权重信息,取得与表示最高迁移概率的累积权重信息相对应的路径中包含的第二对话行为标签。进一步,第二对话行为标签取得单元1403也可以在对话的开始,取得与初始节点(例如,与将在后面进行说明的起始端节点识别符“0”相对应的节点)相对应的第二对话行为标签。
另外,与语音对话装置1同样地,存储部21优选为非易失性的存储介质,但是也能够通过易失性的存储介质来实现,对话总括控制部24通常能够通过MPU和存储器等来实现。进一步,对话总括控制部24的处理步骤通常通过软件来实现,该软件存储在ROM等的存储介质中。但是,也可以通过硬件(专用电路)来实现。
接下来,使用图15的流程图,对语音对话装置2的动作进行说明。
(步骤S1501)受理部12从通过麦克风等输入的声音数据中,检测被推测为作为第一说话者的用户对语音对话系统讲话的区间(讲话区间),将该讲话区间的起始端至终止端的声音数据发送至语音识别部1401。如果检测到讲话区间则进入步骤S1502,如果未检测到讲话区间则返回步骤S1501。
(步骤S1502)语言识别符取得部13识别在步骤S1501中受理的第一说话者的输入语音的语言,取得语言识别符。
(步骤S1503)执行单元1408进行前处理。前处理是指,对于在步骤S1501中受理的输入语音执行与预先确定的动作识别符相对应的动作单元。此外,例如,执行单元1408执行噪声去除,去除输入语音中包含的噪声。
(步骤S1504)语音识别部1401对于输入语音执行语音识别,取得与输入语音相对应的文本。
(步骤S1505)第一对话行为标签取得单元1402对于在步骤S1504中取得的文本进行自然语言处理,取得第一对话行为标签。将该处理称为第一对话行为标签取得处理。对于第一对话行为标签取得处理的详细,已使用图3的流程图进行了说明。
(步骤S1506)第二对话行为标签取得单元2403取得与在步骤S1505中取得的第一对话行为标签和在步骤S1502中取得的语言识别符相对应的一个第二对话行为标签。将该处理称为第二对话行为标签取得处理。使用图16的流程图,对第二对话行为标签取得处理的详细进行说明。此外,在本步骤中,也可能存在无法取得第二对话行为标签的情况。
(步骤S1507)对话总括控制部24在能够在步骤S1506中取得第二对话行为标签的情况下进入步骤S1508,在未能取得的情况下进入步骤S1512。此外,在未能取得第二对话行为标签的情况下直接跳到S1512意味着输出语句以及语音均不输出。也可以取而代之,输出表示输出为“空”的特殊符号,之后跳到步骤S1512。
(步骤S1508)语句取得单元1404从输出语句信息存储部112中取得与在步骤S1506中取得的第二对话行为标签相对应的输出语句。将该处理称为语句取得处理。对于语句取得处理的详细,已使用图5的流程图进行了说明。
(步骤S1510)语音合成部1406生成与在步骤S1508中取得的输出语句相对应的语音波形。
(步骤S1511)语音输出部15输出与在步骤S1510中取得的语音波形相应的语音。此处的输出既可以是向语音对话装置2的扬声器等的声音输出,也可以是向未图示的语音输出装置的发送,还可以是向其他程序等传送语音的处理等。
(步骤S1512)执行单元1408进行所谓的后处理。对于后处理的详细,已使用图7的流程图进行了说明。之后,返回步骤S1501。此外,通过返回步骤S1501,用户与语音对话装置2之间的对话连续不断地进行。
此外,在图15的流程图中,存在无前处理的情况。
另外,在图15的流程图中,在步骤S1512的后处理之后,返回到步骤S1501。但是,也可以直到进入受理来自用户的输入语音的节点(状态)为止(直到进入受理来自用户的输入语音的对话连接信息为止),处理对话构造信息存储部211的相关联的对话连接信息。该处理是从步骤S1502到步骤S1512的处理。将在后面进行说明的具体例中对其详细进行说明。
另外,在图15的流程图中,也可以从步骤S1506开始处理。
进一步,在图15的流程图中,处理通过电源关闭或处理结束的中断而结束。
接下来,使用图16的流程图,对步骤S206的第二对话行为标签取得处理的详细进行说明。
(步骤S1601)第二对话行为标签取得单元2403读取存储在当前节点识别符存储部115中的当前节点识别符。接下来,从对话构造信息存储部211中取得对应于与该当前节点识别符一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签相对应、并且与语言识别符取得部13取得的语言识别符相对应的一个以上的第二对话行为标签。
(步骤S1602)第二对话行为标签取得单元2403将1代入计数器i。
(步骤S1603)第二对话行为标签取得单元2403判断在步骤S1601中取得的一个以上的第二对话行为标签中是否存在与第i个表示高迁移概率的权重信息成对的第二对话行为标签。如果存在该第二对话行为标签则进入步骤S1604,如果不存在则进入步骤S1607。此外,该判断通过参照对话构造信息存储部211的对话构造信息来进行。
(步骤S1604)第二对话行为标签取得单元2403从在步骤S1601中取得的一个以上的第二对话行为标签中,取得与第i个表示高迁移概率的权重信息成对的第二对话行为标签,配置在存储器上。
(步骤S1605)第二对话行为标签取得单元2403判断是否输出了对应于与第i个表示高迁移概率的权重信息成对的第二对话行为标签的语句(是否已经处理与第i个表示高迁移概率的权重信息成对的第二对话行为标签)。如果已经处理则进入步骤S1606,如果未处理则进入步骤S1608。
(步骤S1606)第二对话行为标签取得单元2403使计数器i仅增加1,返回步骤S1603。
(步骤S1607)第二对话行为标签取得单元2403将默认的第二对话行为标签确定为最终的第二对话行为标签,返回上级处理。默认的第二对话行为标签是指,例如从语音对话装置2向用户表示确认的“Confirm(确认)”等。此外,在不经由步骤S1607的情况下,无需预先存储默认的第二对话行为标签。
(步骤S1608)第二对话行为标签取得单元2403将与第i个表示高迁移概率的权重信息成对的第二对话行为标签确定为最终的第二对话行为标签,返回上级处理。
此外,在图16的流程图中,例如假设在已被处理的第二对话行为标签中附有标记。
以下,对本实施方式中的语音对话装置2的具体动作进行说明。
此刻,对话构造信息存储部211存储有图17所示的对话构造信息管理表。对话构造信息管理表保持有一个以上的对话连接信息的记录。对话连接信息具有“ID”、“起始端节点识别符”、“终止端节点识别符”、“第一对话行为标签”、“语言识别符”、“第二对话行为标签”的属性。此外,对话连接信息具有“起始端节点识别符”、“终止端节点识别符”的属性值,并且具有“第一对话行为标签”、“语言识别符”、“第二对话行为标签”中的一个以上的属性值。另外,在图17中,“第一对话行为标签”、“第二对话行为标签”的“-”为NULL。另外,“语言识别符”的“-”表示全部的语言识别符。进一步,虽然未进行图示,但是对话连接信息的记录也可以具有输入等待标记,该输入等待标记表示是用于等待来自用户的语句的输入的节点。在图17中,输入等待标记被赋予给“ID=1、2、3、4、6、7、8”的记录。
进一步,通过图18所示的对话状态迁移图来示出图17所示的对话构造信息管理表。图17所示的对话状态迁移图为所谓的FST。在图18所示的对话状态迁移图中,阴影节点(状态)是等待来自用户的语句的节点。另外,双圈的(0)是初始节点,是表示对话开始的节点。进一步,双圈的(8)是结束节点,是表示对话结束的节点。
另外,输出语句信息存储部112存储有图19所示的输出语句信息管理表。输出语句信息管理表具有“ID”、“输出语句信息”。“输出语句信息”具有“对话行为标签”与日语、英语、中文的“输出语句”。“输出语句”的“-”表示无输出语句。
另外,语句对话行为信息存储部113存储有图10所示的语句对话行为信息管理表。
在该状况下,以说“日语”、“英语”、“中文”的各语言的三个用户(三个第一说话者)使用语音对话装置2的情况为例进行说明。
假设用户接通了语音对话装置2的电源。于是,语音对话装置2的第二对话行为标签取得单元2403从图17的对话构造信息管理表中取得与初始节点相对应的第二对话行为标签“intro”。在此,初始节点例如是与起始端节点识别符“0”相对应的节点。
接下来,语句取得单元1404从图19的输出语句信息管理表中取得与已取得的第二对话行为标签“intro”相对应的输出语句“こんにちは。”、“Hello.”、“你好。”。
接下来,语音合成部1406将输出语句转换成语音,传送至语音输出部15。然后,由于语言识别符取得部13未取得语言识别符,因此语音输出部15输出全部语言的语句的语音。
接下来,当前节点识别符更新单元1407从对话构造信息存储部211中取得与对应于语音输出部15输出的语句的第二对话行为标签“intro”成对的终止端节点识别符“1”,配置在存储器上。进一步,当前节点识别符更新单元1407将取得的终止端节点识别符“1”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设说日语的用户向语音对话装置2输入语音“今日の天気は?”(日语,意为“今天的天气如何?”)。
对于该语音讲话,受理部检测讲话区间,得到与该区间相对应的语音数据。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“日语”。进一步,语音识别部1401进行语音识别处理,得到输入语音文本“今日の天気は”。
接下来,由于“今日の天気は”的“天気”(日语,意为“天气”)与图10的语句对话行为信息管理表的“ID=8”相对应,因此第一对话行为标签取得单元1402取得第一对话行为标签“q.weather”。
接下来,第二对话行为标签取得单元2403取得与已取得的第一对话行为标签“q.weather”、以及语言识别符“日语”相对应的一个第二对话行为标签。具体而言,第二对话行为标签取得单元2403读取存储在当前节点识别符存储部115中的当前节点识别符“1”,配置在存储器上。
接下来,作为对应于与取得的当前节点识别符“1”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“q.weather”相对应、并且与语言识别符取得部13取得的语言识别符“日语”相对应的迁移目的地,第二对话行为标签取得单元2403访问图17的对话构造信息管理表的“ID=2”的记录,第二对话行为标签取得单元2403取得第二对话行为标签“a.weather.ja”。
接下来,语句取得单元1404从图19的输出语句信息管理表中取得与已取得的第二对话行为标签“a.weather.ja”相对应的语句“今日は、黄砂に注意して下さい。”(日语,意为“今天请注意黄沙。”)。
接下来,语音合成部1406取得对语句取得单元1404取得的语句“今日は、黄砂に注意して下さい。”进行转换而得到的语音波形。然后,语音输出部15输出该语音波形。
接下来,当前节点识别符更新单元1407从对话构造信息存储部211中取得与对应于语音输出部15输出的语句的第二对话行为标签“a.weather.ja”成对的终止端节点识别符“7J”,配置在存储器上。进一步,当前节点识别符更新单元1407将取得的终止端节点识别符“7J”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设进行了之前的语音输入的、说日语的用户将语音“了解”(日语,意为“了解”、“明白”)输入到语音对话装置2。
对于该语音讲话,受理部检测讲话区间,得到与该区间相对应的语音数据。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“日语”。进一步,语音识别部1401进行语音识别处理,得到输入语音文本“了解”。
接下来,第一对话行为标签取得单元1402试图取得与“了解”相对应的第一对话行为标签。由于词素“了解”与图10的任何记录均不相符,因此词素“了解”的第一对话行为标签为“eps”。进一步,由于输入语音由“了解”这一个词素构成,因此第一对话行为标签取得单元1402最终取得第一对话行为标签“eps”。
接下来,作为对应于与取得的当前节点识别符“7J”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“eps”相对应、并且与语言识别符取得部13取得的语言识别符“日语”相对应的迁移目的地,第二对话行为标签取得单元2403访问图17的对话构造信息管理表的“ID=6”的记录。由于在图17的对话构造信息管理表的“ID=6”中不存在第二对话行为标签,因此第二对话行为标签取得单元2403不取得第二对话行为标签。因此,不进行输出语句的取得、输出。
接下来,当前节点识别符更新单元1407将取得的终止端节点识别符“1”改写为当前节点识别符存储部115的当前节点识别符。
接下来,假设说英语的用户向语音对话装置2输入语音“How's today'sweather?”(英语,意为“今天的天气如何?”)。
对于该语音讲话,受理部检测讲话区间,得到与该区间相对应的语音数据。然后,作为与第一说话者的输入语音相对应的语言识别符,语言识别符取得部13取得“英语”。进一步,语音识别部1401进行语音识别处理,得到输入语音文本“How's today's weather”。
接下来,由于“How's today's weather”的“weather”(英语,意为“天气”)与图10的语句对话行为信息管理表的“ID=9”相对应,因此第一对话行为标签取得单元1402取得第一对话行为标签“q.weather”。
接下来,第二对话行为标签取得单元2403取得与已取得的第一对话行为标签“q.weather”和语言识别符“英语”相对应的一个第二对话行为标签。具体而言,第二对话行为标签取得单元2403读取存储在当前节点识别符存储部115中的当前节点识别符“1”,配置在存储器上。
接下来,作为对应于与取得的当前节点识别符“1”一致的起始端节点识别符、并且与第一对话行为标签取得单元1402取得的第一对话行为标签“q.weather”相对应、并且与语言识别符取得部13取得的语言识别符“英语”相对应的迁移目的地,第二对话行为标签取得单元2403访问图17的对话构造信息管理表的“ID=3”的记录,第二对话行为标签取得单元2403取得第二对话行为标签“a.weather.en”。
接下来,语句取得单元1404取得与已取得的第二对话行为标签“a.weather.en”相对应的语句“Today,note the yellow sand phenomenon.The yellow sand phenomenonis dust carried on high winds from China.”(英语,意为“今天注意黄沙现象。黄沙现象是由中国大风带来的沙尘。”)。
接下来,语音合成部1406取得对语句取得单元1404取得的语句“Today,note theyellow sand phenomenon.The yellow sand phenomenon is dust carried on highwinds from China.”进行转换而得到的语音波形。然后,语音输出部15输出该语音波形。
接下来,当前节点识别符更新单元1407从对话构造信息存储部211中取得与对应于语音输出部15输出的语句的第二对话行为标签“a.weather.en”成对的终止端节点识别符“7E”,配置在存储器上。进一步,当前节点识别符更新单元1407将取得的终止端节点识别符“7E”改写为当前节点识别符存储部115的当前节点识别符。
之后,同样地,语音对话装置2与用户按照图17的对话构造信息管理表所示的FST进行对话。
以上,根据本实施方式,语音对话装置2能够配合用户的使用语言进行适当的响应。另外,用户能够与语音对话装置2更加自然地连续不断地对话。
另外,根据本实施方式,能够根据用户的使用语言进行不同的状态迁移,因此能够更加细致地输出适合用户的响应。
另外,根据本实施方式,例如,由于将对话构造信息(对话状态的构造)与在对话中使用的语句的集合分离,因此,只要替换语句的集合,就能够应对各种话题(任务)。
此外,在本实施方式中,虽然作为语言识别符的例子列举了日语与英语,但是也可以将语言按照所使用的国家来区分语言,如英式英语与美式英语,也可以按照更加细化的地域来区分,如普通话与大阪方言。
另外,在本实施方式中,语音对话装置2也可以具有语句变更信息存储部117与语句变更单元1405。在语音对话装置2具有语句变更信息存储部117与语句变更单元1405的情况下,语音对话装置2对于由语句取得单元1404取得的输出语句,使用语句变更信息存储部117进行与语句变更单元1405相同的处理,变更输出语句。之后,将该变更后的语句传送至语音合成部1406。
此外,实现本实施方式中的语音对话装置2的软件为如下程序。也就是说,是一种使计算机作为以下各部发挥其功能的程序:受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语言识别符取得部,取得识别所述输入语音的语言的语言识别符;语音识别部,根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;语音合成部,根据所述输出语句以及所述语言识别符生成语音波形;以及语音输出部,输出所述语音合成部生成的语音。
另外,计算机能够访问的存储介质优选具备:对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签,并且所述对话构造信息具有与第一对话行为标签连接、且与语言识别符相对应的两个以上的第二对话行为标签;以及输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;在上述程序中,优选使计算机发挥如下功能,即,所述对话控制部具备:第一对话行为标签取得单元,使用所述语音识别单元取得的字符串,从所述对话构造信息存储部中取得与该字符串相对应的第一对话行为标签;第二对话行为标签取得单元,取得与所述第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、与所述语言识别符取得部取得的语言识别符相对应的一个第二对话行为标签;以及语句取得单元,从所述输出语句信息存储部中取得与所述第二对话行为标签取得单元取得的第二对话行为标签相对应的语句。
(第三实施方式)
在本实施方式中,对如下的语音系统进行说明:即该语音系统在两个以上的用户说两个以上的语言并且用户位于两个以上分离的场所的环境下,实现交叉着语音对话装置的通话。
图20是本实施方式中的语音系统的框图。语音系统具有服务器装置3、一个或者两个以上的第一终端4、一个或者两个以上的第二终端5以及语音对话装置6。
服务器装置3直接或者经由网络与一个或者两个以上的第一终端4、一个或者两个以上的第二终端5以及语音对话装置6连接。该网络为有线或者无线的通信电线,例如为互联网、内部网、LAN(Local Area Network,局域网)、公用电话线路等。另外,第一终端4、第二终端5以及语音对话装置6只要能够与服务器装置3连接即可,可以是任意的。第一终端4、第二终端5以及语音对话装置6例如也可以是台式电脑、笔记本电脑、智能手机、平板电脑或者PDA等。此外,服务器装置3与一个第一终端4也可以通过一个装置来实现。另外,服务器装置3与语音对话装置6与一个第一终端4也可以通过一个装置来实现。
语音对话装置6是受理基于输入语音的信息并输出响应的装置。基于输入语音的信息是指,例如输入语音本身、作为输入语音的语音识别结果的字符串中的一者或者两者。基于输入语音的信息也可以包括识别输入语音的语言的语言识别符。进一步,语音对话装置6也可以在服务器装置3中进行处理的一部分。例如,语音对话装置6也可以在服务器装置3中进行对输入语音进行抽象的第一对话行为标签的取得处理,并将得到的第一对话行为标签追加到所述的基于输入语音的信息中。另外,语音对话装置6输出的响应通常是语音与文本,但是也可以是其中的任意一个。语音对话装置6例如为在第一实施方式中描述的语音对话装置1或者在第二实施方式中描述的语音对话装置2,但是当然也可以为其他公知的跨语言语音对话装置等。此外,语音对话装置6也可以直接或者经由网络与多个服务器装置3连接。
图20的服务器装置3具备受理部31、语音识别部32、输出目的地确定部33、发送部34、响应受理部35、响应发送部36以及机器翻译部37。
受理部31从第一终端4受理第一说话者的输入语音。在此,第一终端4是指,第一终端4中的进行了语音的输入的终端。另外,受理通常是指,接收经由有线或者无线的通信线路发送的信息,但是在服务器装置3与第一终端4通过一个装置来实现的情况下等,也可以直接从该装置所具有的麦克风受理语音,也可以受理从光盘、磁盘、半导体存储器等存储介质中读取的信息。
语音识别部32对受理部31受理的输入语音进行语音识别,取得字符串。字符串是语音识别的结果。此处的字符串通常是识别出构成输入语音的各语句的短语而得到的字符串。另外,语音识别部32也可以使用与多个语言相对应的语音识别技术,取得对识别出的语音的语言进行识别的语言识别符与字符串。语音识别技术以及语言识别技术为公知技术,因此省略说明。
另外,语音识别部32也可以具备第一对话行为标签取得单元1402。在这种情况下,语音对话装置6例如受理在第一实施方式以及第二实施方式中描述的、对第一说话者的输入语音进行了抽象的第一对话行为标签,输出与第一对话行为标签相对应的第二对话行为标签所表示的语句。在语音识别部32具备第一对话行为标签取得单元1402的情况下,语音识别部32将对输入语音进行了语音识别而得到的字符串传送至第一对话行为标签取得单元1402,取得第一对话行为标签。另外,在语音识别部32具备第一对话行为标签取得单元1402的情况下,语音识别部32通常还具备语句对话行为信息存储部113。
输出目的地确定部33使用基于输入语音的信息,确定输出基于输入语音的信息的目的地。输出目的地确定部33根据语音识别部32取得的字符串的信息,将基于输入语音的信息的输出目的地确定为第二终端5和语音对话装置6中的某一个。输出目的地确定部33优选根据语音识别部32取得的字符串中包含的一个以上的用语,确定输出基于输入语音的信息的目的地。此外,基于输入语音的信息是指,例如作为输入语音的语音识别结果的字符串、能够从作为输入语音的语音识别结果的字符串中取得的信息。能够从字符串中取得的信息是指,例如上述第一对话行为标签、上述第一对话行为标签与语言识别符等。
输出目的地确定部33例如在语音识别部32取得的字符串中包含预先存储的预约信息的情况下,将输出目的地确定为语音对话装置6。预约信息例如是表示语音对话装置6的名字的字符串、表示昵称的字符串、表示“喂”等打招呼的字符串等。输出目的地确定部33例如在语音识别部32取得的字符串中不包含预先存储的预约信息的情况下,将输出目的地确定为第二终端5。此外,一个以上的预约信息存储在未图示的存储部中。
另外,输出目的地确定部33也可以根据从第一终端4发送的用户的指示,确定输出基于输入语音的信息的目的地。例如,在第一终端4的画面上显示“向语音对话装置提问”的按钮,对于在该按钮被选择(点击或触摸等)的期间内输入的语音,输出目的地确定部33将输出目的地确定为语音对话装置6,在除此之外的情况下,将输出目的地确定为第二终端5。在该情况下,受理部31从第一终端4受理识别输出目的地的输出目的地识别标记。输出目的地识别标记是表示第二终端5的信息或者表示语音对话装置6的信息。或者,作为用于确定输出目的地的其他手段,也可以从终端所具备的摄像机中取得用户的脸部图像,在从该图像检测出用户的脸的方向与视线的方向等的基础上,仅在它们为规定方向时将输入语音发送至语音对话装置6。例如,在终端所具备的显示器装置的规定场所(例如右下)显示有语音对话系统的代理,在用户一边朝向该方向一边讲话的情况下,将输入语音发送至语音对话装置6。
发送部34在输出目的地确定部33确定的输出目的地为第二终端5的情况下,将基于输入语音的信息发送至第二终端5。在此,基于输入语音的信息例如是输入语音。但是,此处的基于输入语音的信息例如既可以是语音识别部32取得的字符串,也可以是由将在后面进行说明的机器翻译部37对输入语音进行机器翻译而得到的字符串,进一步也可以是通过未图示的语音合成单元对该字符串进行了转换的结果即语音波形。另外,此处的基于输入语音的信息例如也可以是输入语音、语音识别部32取得的字符串、机器翻译部37进行机器翻译而得到的字符串、未图示的语音合成单元生成的语音波形中的两个以上的信息。
另外,发送部34在输出目的地确定部33确定的输出目的地为语音对话装置6的情况下,将基于输入语音的信息发送至语音对话装置6。在此,基于输入语音的信息例如是语音识别部32取得的字符串。另外,基于输入语音的信息例如也可以是第一对话行为标签取得单元1402取得的第一对话行为标签。另外,此处的基于输入语音的信息也可以具有表示受理部31受理的输入语音的语言的语言识别符。
响应受理部35受理相对于发送部34发送至语音对话装置6的、基于输入语音的信息(通常为字符串)的响应。在此,受理通常是指,接收经由有线或者无线的通信线路发送的信息,但是在服务器装置3与语音对话装置6通过一个装置来实现的情况下,也可以通过同一计算机上的其他程序或者模块、函数等来接收信息。
响应发送部36将响应受理部35受理的响应发送至第一终端4以及第二终端5。在此,发送至第二终端5的响应既可以是语音对话装置6的响应本身,也可以是由将在后面进行说明的机器翻译部37对语音对话装置6的响应进行机器翻译而得到的字符串,也可以是通过未图示的语音合成单元对该字符串进行转换而得到的语音波形,或者也可以是它们的组合。另外,发送至第二终端5的响应除了与语音对话装置6的响应有关的信息以外,也可以包括受理部31受理的输入语音,也可以包括语音识别部32取得的字符串,也可以包括由将在后面进行说明的机器翻译部37对输入语音进行机器翻译而得到的字符串,也可以是通过未图示的语音合成单元对该字符串进行转换而得到的语音波形。另外,在语音对话装置6的响应包括多个语言的语句的情况下,既可以将全部语言的语句发送至各终端,也可以仅将与各终端的用户所使用的语言相对应的语句发送至各终端。
机器翻译部37对语音识别部32取得的字符串进行机器翻译。另外,机器翻译部37也可以对响应受理部35受理的响应进行机器翻译。也就是说,机器翻译部37通过机器翻译处理取得发送部34或者响应发送部36向第二终端5发送的字符串。在此,机器翻译部37优选对每个第二终端5翻译成不同的语言,该语言是利用第二终端5的用户所使用的语言。另外,机器翻译处理也可以直接或者通过经由网络的其他计算机来执行。在这种情况下,机器翻译部37是连接执行该机器翻译处理的计算机与服务器装置3的接口。机器翻译为公知技术,因此省略说明。
语音识别部32以及输出目的地确定部33通常能够通过MPU和存储器等来实现。另外,进一步,语音识别部32以及输出目的地确定部33的各处理步骤通常通过软件来实现,该软件存储在ROM等的存储介质中。但是,也可以通过硬件(专用电路)来实现。另外,与语音对话装置1同样地,语句对话行为信息存储部113优选为非易失性的存储介质,但是也能够通过易失性的存储介质来实现。
另外,受理部31、发送部34、响应受理部35以及响应发送部36通常通过无线或者有线的通信单元来实现,但是也可以通过广播接收单元来实现。
接下来,使用图21的流程图,对服务器装置3的动作进行说明。
(步骤S2101)受理部31判断是否从第一终端4受理了输入语音。如果受理了输入语音,则进入步骤S2102,如果未受理输入语音,则返回步骤S2101。
(步骤S2102)语音识别部32对第一终端4的输入语音执行语音识别,取得文本。
(步骤S2104)输出目的地确定部33将输出目的地确定为第二终端5和语音对话装置6中的某一个。将该处理称为输出目的地确定处理。使用图22的流程图,对输出目的地确定处理的详细进行说明。
(步骤S2105)发送部34判断在步骤S2104中确定的输出目的地是否为第二终端5。如果输出目的地为第二终端5,则进入步骤S2106,如果输出目的地为语音对话装置6,则进入步骤S2108。
(步骤S2106)机器翻译部37对在步骤S2102中取得的文本进行机器翻译。
(步骤S2107)发送部34将在步骤S2101中受理的输入语音发送至第二终端5,返回步骤S2101。
(步骤S2108)发送部34将对在步骤S2102中取得的输入语音进行语音识别而得到的文本发送至语音对话装置6。
(步骤S2109)响应受理部35判断有无来自语音对话装置6的、对在步骤S2108中发送的信息的响应。在有响应的情况下进入步骤S2110,在没有响应的情况下返回步骤S2109。
(步骤S2110)响应发送部36将在步骤S2109中接收的语音对话装置6的响应发送至第一终端4。
(步骤S2111)机器翻译部37对在步骤S2109中接收的语音对话装置6的响应进行机器翻译。此外,在机器翻译中,作为翻译目标的语言是与发送目的地的第二终端5相对应的语言。另外,假设识别语言的语言识别符与发送目的地的一个以上的各第二终端5相对应地存储在未图示的存储部。此外,如上所述,也可以取代翻译而由语音对话装置生成多个语言的响应,在这种情况下跳过S2111。
(步骤S2112)响应发送部36将作为在步骤S2111中取得的进行机器翻译的结果的文本发送至第二终端5。
此外,在图21的流程图中,在语音对话装置6受理第一对话行为标签的情况下,发送部34在进行步骤S2108的发送处理之前,将第一对话行为标签发送至语音对话装置6。在此,相对于对在步骤S2102中取得的输入语音进行语音识别而得到的文本,进行图3的流程图所示的第一对话行为标签取得处理,从而取得第一对话行为标签。
另外,在图21的流程图中,步骤S2109也可以在一定时间内没有来自语音对话装置6的响应的情况下,以返回步骤S2101的方式进行处理。同样地,可以在从语音对话装置6受理了表示“无响应”的特殊符号的情况下,也以返回步骤S2101的方式进行处理。
进一步,在图21的流程图中,处理通过电源关闭或处理结束的中断而结束。
接下来,使用图22的流程图,对步骤S2104的输出目的地确定处理的详细进行说明。
(步骤S2201)输出目的地确定部33对在步骤S2102中取得的文本进行词素解析,取得文本的词素列。
(步骤S2202)输出目的地确定部33判断在步骤S2201中取得的词素列的部分词素列中是否存在与预先确定的特定的预约信息一致的信息。在此,特定的预约信息例如是赋予语音对话装置6的名字或昵称等。
(步骤S2203)输出目的地确定部33将输出目的地确定为语音对话装置6。之后,返回上级处理。
(步骤S2204)输出目的地确定部33将输出目的地确定为第二终端5。之后,返回上级处理。
以下,对本实施方式中的服务器装置3的具体动作进行说明。
此刻,假设输出目的地确定部33在第一终端4的输入语音中存在特定的预约信息的情况下,判断该输入语音的输出目的地为语音对话装置6,假设特定的预约信息是“はんな(Hanna)”(日语,无实际意义,为姓氏“汉娜”)。此外,假设特定的预约信息“はんな(Hanna)”存储在服务器装置3的未图示的存储部。
另外,假设语音对话装置6为使用了与第一实施方式的具体例的语音对话装置1相同数据的语音对话装置。即,语音对话装置6根据图8的对话构造信息开展对话,输出图11的输出语句信息的语句。此外,虽然在第一实施方式的具体例的语音对话装置1中使用语音作为输入输出,但是假设本具体例的语音对话装置6以输入语音的文本与语言识别符作为输入,输出输出语句的文本。
另外,假设语句对话行为信息存储部113存储有图10的语句对话行为信息管理表。
以下,对如下的实施例进行说明:假设在该状况下,两个用户分别说日语与英语,说日语的用户为j、说英语的用户为e,用户j从终端J、用户e从终端E交叉着语音对话装置6进行对话。
首先,假设用户j从终端J输入了语音“こんにちは”(日语,意为“你好”)。在此,终端J为第一终端4。
于是,服务器装置3的受理部31从接收的声音数据中检测与语音讲话“こんにちは”相当的讲话区间。接下来,语音识别部32对该讲话区间进行语音识别,取得文本“こんにちは”与语言识别符“日语”。
接下来,输出目的地确定部33对文本“こんにちは”进行解析,以如下方式确定输出目的地。输出目的地确定部33对该文本进行词素解析,得到词素解析列“こんにちは”。此外,此处的词素解析列由一个词素构成。而且,由于在该词素解析列中不包括“はんな”,因此输出目的地确定部33将输出目的地确定为作为第二终端5的终端E。
接下来,机器翻译部37对文本“こんにちは”进行机器翻译,取得文本“Hello”(英语,意为“你好”)。然后,发送部34将文本“Hello”发送至终端E。
接下来,假设用户e从终端E输入了语音“Good evening”(英语,意为“晚上好”)。在此,终端E为第一终端4。
于是,服务器装置3的受理部31受理语音“Good evening”。接下来,语音识别部32对该语音进行语音识别,取得文本“Good evening”与语言识别符“英语”。
接下来,输出目的地确定部33对文本“Good evening”进行解析,确定输出目的地。由于在“Good evening”中不包括“Hanna”,因此输出目的地确定部33将输出目的地确定为作为第二终端5的终端J。
接下来,机器翻译部37对文本“Good evening”进行机器翻译,取得文本“こんばんは”(日语,意为“晚上好”)。然后,发送部34将文本“こんばんは”发送至终端E。
接下来,假设用户j从终端J通过语音输入了语音“はんな、おすすめの観光スポットは?”(日语,意为“汉娜,推荐的观光地点是?”)。在此,终端J为第一终端4。
于是,服务器装置3的受理部31从接收的声音数据中检测与语音讲话“はんな、おすすめの観光スポットは?”相对应的讲话区间。接下来,语音识别部32对该讲话区间进行语音识别,取得文本“はんな、おすすめの観光スポットは”与语言识别符“日语”。
接下来,输出目的地确定部33对文本“はんな、おすすめの観光スポットは”进行解析,以如下方式确定输出目的地。输出目的地确定部33对该文本进行词素解析,得到词素解析列“はんな|、|おすすめ|の|観光|スポット|は”。在此,“|”表示词素边界。由于在该词素列中包含“はんな”,因此输出目的地确定部33将输出目的地确定为语音对话装置6。
接下来,发送部34将文本“はんな、おすすめの観光スポットは”与语言识别符“日语”发送至语音对话装置6。
接下来,语音对话装置6接收文本“はんな、おすすめの観光スポットは”与语言识别符“日语”。
然后,语音对话装置6使用文本“はんな、おすすめの観光スポットは”与语言识别符“日语”,取得第一对话行为标签“q.spot”,最终取得响应“京都がおすすめです”(日语,意为“推荐京都”)。具体而言,语音对话装置6参照图8的对话构造信息管理表,取得“ID=3”的记录,进行与该记录的动作识别符相对应的动作即地点检索。接下来,语音对话装置6取得该对话构造信息管理表的“ID=7”的记录,取得第二对话行为标签“a.spot”。接下来,语音对话装置6参照图11的输出语句信息管理表,使用第二对话行为标签“a.spot”与语言识别符“日语”,取得输出语句“京都がおすすめです。”。
接下来,语音对话装置6将响应“京都がおすすめです。”发送至服务器装置3。
接下来,服务器装置3的响应受理部35取得来自语音对话装置6的响应“京都がおすすめです”。
接下来,响应发送部36将该响应“京都がおすすめです。”发送至终端J。然后,机器翻译部37对该响应进行机器翻译,取得“I recommend Kyoto.”(英语,意为“我推荐京都”)。进一步,响应发送部36将该机器翻译的结果“I recommend Kyoto.”发送至终端E。此外,如上所述,语音对话装置除了日语的响应之外还可以生成英语的响应“I recommendKyoto.”,将该响应发送至终端E,在这种情况下跳过机器翻译处理。
接下来,假设用户e从终端E输入了语音“Hanna,how long does it take?”(英语,意为“汉娜,需要多长时间”)。在此,终端E为第一终端4。
于是,服务器装置3的受理部31受理语音“Hanne,how long does it take?”。接下来,语音识别部32对该语音进行语音识别,取得文本“Hanna,how long does it take?”与语言识别符“英语”。
接下来,输出目的地确定部33对文本“Hanne,how long does it take?”进行解析,确定输出目的地。由于该文本中包含“Hanna”,因此输出目的地确定部33将输出目的地确定为语音对话装置6。
接下来,发送部34将文本“Hanne,how long does it take?”与语言识别符“英语”发送至语音对话装置6。
接下来,语音对话装置6接收文本“Hanne,how long does it take?”与语言识别符“英语”。
然后,语音对话装置6使用文本“Hanne,how long does it take?”与语言识别符“英语”,取得第一对话行为标签“q.how-to-take”,最终取得响应“It take2.5hours byShinkansen from Tokyo.”(英语,意为“从东京坐新干线需要2.5小时”)。具体而言,语音对话装置6参照图8的对话构造信息管理表,取得“ID=9”的记录,取得第二对话行为标签“a.how-to-take”。接下来,语音对话装置6参照图11的输出语句信息管理表与图13的关键词管理表,使用第二对话行为标签“a.how-to-take”与语言识别符“英语”,取得输出语句“It take2.5hours by Shinkansen from Tokyo.”。
接下来,语音对话装置6将响应“It take 2.5hours by Shinkansen fromTokyo.”发送至服务器装置3。
接下来,服务器装置3的响应受理部35取得来自语音对话装置6的响应“It take2.5hours by Shinkansen from Tokyo.”。
接下来,响应发送部36将该响应“It take 2.5hours by Shinkansen fromTokyo.”发送至终端E。然后,机器翻译部37对该响应进行机器翻译,取得“東京から新幹線で2.5時間かかります。”(日语,意为“从东京坐新干线需要2.5小时”)。进一步,响应发送部36将该进行机器翻译而得到的响应发送至终端J。
之后,与上述同样地,用户j与用户e交叉着语音对话装置6开展对话。
以上,根据本实施方式,即使在说不同语言的两个以上的用户位于分离的场所的情况下,也能够进行将语音对话装置适当地应用于电视电话与电视会议系统等的对话。
另外,根据本实施方式,即使在说不同语言的两个以上用户位于分离的场所的情况下,也能够进行将跨语言的语音对话装置适当地应用于电视电话与电视会议系统等的对话。
另外,根据本实施方式,由于能够将语音识别处理分离,因此能够实现分散了负荷的跨语言语音对话系统。
此外,根据本实施方式,虽然向第一终端4与第二终端5发送了文本,但是也可以通过使发送部34与响应发送部36具备语音合成部1406,向第一终端4与第二终端5发送语音。
另外,根据本实施方式,虽然通过单一的服务器装置3实现了交叉着跨语言语音对话装置的通话,但是也可以取而代之地使用多个服务器装置3。在这种情况下,在图20中,第二终端5的各终端作为第一终端直接或者经由网络与未图示的其他服务器装置3连接。即,第一终端4与第二终端5的各终端分别作为第一终端连接到一个服务器装置3,作为第二终端连接到该服务器装置3以外的服务器装置3。
此外,实现本实施方式中的服务器装置的软件为如下程序。也就是说,是一种使计算机作为以下各部发挥其功能的程序:受理部,从第一终端接收第一说话者的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;语音识别部,对所述输入语音进行语音识别,取得字符串;输出目的地确定部,确定输出基于所述输入语音的信息的目的地;发送部,在所述输出目的地确定部确定的输出目的地为第二终端的情况下,将基于所述输入语音的信息发送至所述第二终端,在所述输出目的地确定部确定的输出目的地为语音对话装置的情况下,将所述语音识别部取得的字符串传送至所述语音对话装置;响应受理部,从所述语音对话装置受理与所述字符串相对应的响应;以及响应发送部,将所述响应受理部受理的响应发送至所述第一终端以及所述第二终端。
另外,在上述程序中,优选使计算机发挥如下功能:所述输出目的地确定部根据所述语音识别部取得的字符串中包含的一个以上的用语,确定输出基于所述输入语音的信息的目的地。
另外,在上述程序中,优选使计算机发挥如下功能:所述输出目的地确定部根据从所述第一终端发送的用户的指示,确定输出基于所述输入语音的信息的目的地。
以上,在全部的实施方式中,执行各程序的计算机既可以为单个,也可以为多个。即,既可以进行集中处理,或者也可以进行分散处理。
此外,在上述程序中,在上述程序实现的功能中不包括只能通过硬件实现的功能。例如,受理信息的受理部与输出信息的输出部等中的调制解调器与接口卡等只能通过硬件实现的功能,至少不包含在上述程序所实现的功能中。
另外,该程序既可以通过从服务器等下载来执行,也可以通过读取存储在规定的存储介质(例如CD-ROM等光盘或磁盘、半导体存储器等)中的程序来执行。另外,该程序也可以用作构成程序产品的程序。
图23是示出通过执行上述程序来实现基于上述实施方式的语音对话装置1等的计算机的外观的一例的模式图。上述实施方式也可以通过计算机硬件以及在其中执行的计算机程序来实现。
在图23中,计算机系统3000具备包含有CD-ROM驱动器3005的计算机3001、键盘3002、鼠标3003以及显示器3004。
图24是示出计算机系统3000的内部结构的图。在图24中,计算机3001除了具备CD-ROM驱动器3005之外,还具备:MPU(Micro Processing Unit,微处理器)3011;ROM3012,用于存储启动程序等程序;RAM3013,连接到MPU3011,用于临时存储应用程序的命令并且提供临时存储空间;硬盘3014,存储应用程序、系统程序以及数据;以及总线3015,将MPU3011、ROM3012等相互连接。此外,计算机3001也可以包括提供向局域网与广域网等进行连接的未图示的网卡。
使计算机系统3000执行基于上述实施方式的语音对话装置1等的功能的程序也可以存储在CD-ROM3021中,将其插入到CD-ROM驱动器3005中,再传送至硬盘3014。取而代之地,也可以经由未图示的网络将该程序发送至计算机3001,并存储于硬盘3014。程序在执行时被加载到RAM3013。此外,也可以从CD-ROM3021或者网络直接加载程序。另外,也可以取代CD-ROM3021,通过其他存储介质(例如USB存储器等)将程序读入计算机系统3000。
程序也可以不必包含使计算机3001执行上述实施方式的语音对话装置1等的功能的操作系统(OS)或者第三方程序等。程序也可以只包含在被控制的状态下调用适当的功能与模块以获得期望结果的命令部分。计算机系统3000如何工作是公知的,因而省略详细说明。
另外,本发明并不仅限于上述实施方式,能够进行各种变更,当然,这些变更也包含在本发明的保护范围内。
产业上的利用可能性
如上所述,本发明所涉及的语音对话装置具有能够适当地辅助基于多个语言的语音对话的效果,作为语音对话装置等是有用的。
Claims (5)
1.一种语音对话装置,具备:
受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;
语言识别符取得部,取得识别所述输入语音的语言的语言识别符;
语音识别部,根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;
对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;
语音合成部,根据输出语句与语言识别符生成语音波形;以及
语音输出部,输出与所述语音合成部取得的语音波形相应的语音。
2.根据权利要求1所述的语音对话装置,其中,
进一步具备:
对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签;以及
输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;
所述对话控制部具备:
第一对话行为标签取得单元,使用所述语音识别单元取得的字符串,从所述对话构造信息存储部中取得与该字符串相对应的第一对话行为标签;
第二对话行为标签取得单元,取得与所述第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、一个第二对话行为标签;
语句取得单元,从所述输出语句信息存储部中取得与所述第二对话行为标签取得单元取得的第二对话行为标签相对应的语句;以及
语句变更单元,根据所述语言识别符取得部取得的语言识别符变更所述语句取得单元取得的语句,并取得变更后的语句。
3.根据权利要求1所述的语音对话装置,其中,
进一步具备:
对话构造信息存储部,能够存储对话构造信息,所述对话构造信息是表示对话的关联的信息并且具有一个以上的对话连接信息,所述对话连接信息具有对第一说话者的输入语音进行抽象的第一对话行为标签以及对第二说话者的输出语音进行抽象的第二对话行为标签,并且所述对话构造信息具有与第一对话行为标签连接、且与语言识别符相对应的两个以上的第二对话行为标签;以及
输出语句信息存储部,能够存储具有第二对话行为标签与一个以上的语句的输出语音信息;
所述对话控制部具备:
第一对话行为标签取得单元,使用所述语音识别单元取得的字符串,从所述对话构造信息存储部中取得与该字符串相对应的第一对话行为标签;
第二对话行为标签取得单元,取得与所述第一对话行为标签取得单元取得的第一对话行为标签相对应的一个以上的第二对话行为标签中的、与所述语言识别符取得部取得的语言识别符相对应的一个第二对话行为标签;以及
语句取得单元,从所述输出语句信息存储部中取得与所述第二对话行为标签取得单元取得的第二对话行为标签相对应的语句。
4.一种语音对话方法,通过受理部、语言识别符取得部、语音识别部、对话控制部、语音合成部以及语音输出部来实现,其中,具备:
受理步骤,所述受理部受理通过两个以上的不同语言发声的输入语音;
语言识别符取得步骤,所述语言识别符取得部取得识别所述输入语音的语言的语言识别符;
语音识别步骤,所述语音识别部根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;
对话控制步骤,所述对话控制部根据所述语音识别结果以及所述语言识别符生成输出语句;
语音合成步骤,根据所述输出语句与所述语言识别符生成语音波形;以及
语音输出步骤,所述语音输出部输出与在所述合成取得步骤中取得的语音波形相应的语音。
5.一种存储介质,存储有用于使计算机作为以下各部发挥功能的程序:
受理部,对于通过两个以上的不同语言发声的输入语音,对该讲话的起始端到终止端进行检测,取得该区间的语音数据;
语言识别符取得部,取得识别所述输入语音的语言的语言识别符;
语音识别部,根据所述输入语音以及所述语言识别符生成作为语音识别结果的文本;
对话控制部,输入语音识别结果的文本与语言识别符,即使语言识别符相对于上一次发生变化也维持对话的履历,并且根据语言识别符生成不同内容的输出语句;
语音合成部,根据所述输出语句与所述语言识别符生成语音波形;以及
语音输出部,输出与所述语音合成部取得的语音波形相应的语音。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-148984 | 2016-07-28 | ||
JP2016148984A JP6819988B2 (ja) | 2016-07-28 | 2016-07-28 | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム |
PCT/JP2017/026681 WO2018021237A1 (ja) | 2016-07-28 | 2017-07-24 | 音声対話装置、音声対話方法、および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109496332A true CN109496332A (zh) | 2019-03-19 |
Family
ID=61017447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780046486.4A Pending CN109496332A (zh) | 2016-07-28 | 2017-07-24 | 语音对话装置、语音对话方法以及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11049493B2 (zh) |
JP (1) | JP6819988B2 (zh) |
CN (1) | CN109496332A (zh) |
WO (1) | WO2018021237A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114080640A (zh) * | 2020-01-29 | 2022-02-22 | 互动解决方案公司 | 对话分析系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565981B2 (en) * | 2017-09-26 | 2020-02-18 | Microsoft Technology Licensing, Llc | Computer-assisted conversation using addressible conversation segments |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
JP6988924B2 (ja) * | 2018-02-05 | 2022-01-05 | 日本電気株式会社 | 質問群抽出方法、質問群抽出装置および質問群抽出プログラム |
JP7054731B2 (ja) * | 2018-04-17 | 2022-04-14 | 株式会社Nttドコモ | 対話システム |
WO2019207912A1 (ja) * | 2018-04-23 | 2019-10-31 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
EP3576084B1 (de) * | 2018-05-29 | 2020-09-30 | Christoph Neumann | Effiziente dialoggestaltung |
KR20200056712A (ko) | 2018-11-15 | 2020-05-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
JP7429194B2 (ja) * | 2018-11-22 | 2024-02-07 | 株式会社Nttドコモ | 対話装置及び対話プログラム |
CN111402900B (zh) * | 2018-12-29 | 2024-04-23 | 华为技术有限公司 | 一种语音交互方法,设备和系统 |
CN111798832B (zh) * | 2019-04-03 | 2024-09-20 | 北京汇钧科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
WO2020235136A1 (ja) * | 2019-05-20 | 2020-11-26 | 株式会社Nttドコモ | 対話システム |
KR102170088B1 (ko) * | 2019-07-24 | 2020-10-26 | 네이버 주식회사 | 인공지능 기반 자동 응답 방법 및 시스템 |
JP7023535B2 (ja) * | 2020-02-21 | 2022-02-22 | 株式会社Pid | 情報検索システム、情報検索プログラム、及び情報検索方法 |
US11663422B2 (en) * | 2020-06-10 | 2023-05-30 | Paypal, Inc. | Systems and methods for providing multilingual support in an automated online chat system |
US12020710B2 (en) * | 2021-03-05 | 2024-06-25 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
US20230298566A1 (en) * | 2022-03-15 | 2023-09-21 | Microsoft Technology Licensing, Llc | End-to-end streaming speech translation with neural transducer |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355226A (ja) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 異言語間対話装置および異言語間対話方法 |
JP2005342862A (ja) * | 2004-06-04 | 2005-12-15 | Nec Corp | ロボット |
CN1842787A (zh) * | 2004-10-08 | 2006-10-04 | 松下电器产业株式会社 | 对话支援装置 |
JP2009211629A (ja) * | 2008-03-06 | 2009-09-17 | National Institute Of Information & Communication Technology | 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム |
CN104505091A (zh) * | 2014-12-26 | 2015-04-08 | 湖南华凯文化创意股份有限公司 | 人机语音交互方法及系统 |
JP2015118710A (ja) * | 2015-01-09 | 2015-06-25 | 株式会社東芝 | 対話装置、方法及びプログラム |
CN105190607A (zh) * | 2013-03-15 | 2015-12-23 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105223851A (zh) * | 2015-10-09 | 2016-01-06 | 韩山师范学院 | 基于方言识别的智能插座系统及控制方法 |
CN105247609A (zh) * | 2013-05-31 | 2016-01-13 | 雅马哈株式会社 | 利用言语合成对话语进行响应的技术 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922670B2 (en) * | 2000-10-24 | 2005-07-26 | Sanyo Electric Co., Ltd. | User support apparatus and system using agents |
US7930182B2 (en) * | 2005-03-15 | 2011-04-19 | Nuance Communications, Inc. | Computer-implemented tool for creation of speech application code and associated functional specification |
US20060253272A1 (en) * | 2005-05-06 | 2006-11-09 | International Business Machines Corporation | Voice prompts for use in speech-to-speech translation system |
CN101971599B (zh) * | 2007-06-27 | 2016-01-20 | 卡伦诺尔斯企业私人有限公司 | 通信的方法、系统和产品 |
WO2009100240A1 (en) * | 2008-02-05 | 2009-08-13 | Stratosaudio, Inc. | System and method for advertisement transmission and display |
US9721563B2 (en) * | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9936916B2 (en) * | 2013-10-09 | 2018-04-10 | Nedim T. SAHIN | Systems, environment and methods for identification and analysis of recurring transitory physiological states and events using a portable data collection device |
US10162813B2 (en) * | 2013-11-21 | 2018-12-25 | Microsoft Technology Licensing, Llc | Dialogue evaluation via multiple hypothesis ranking |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US10579733B2 (en) * | 2018-05-10 | 2020-03-03 | Google Llc | Identifying codemixed text |
-
2016
- 2016-07-28 JP JP2016148984A patent/JP6819988B2/ja active Active
-
2017
- 2017-07-24 WO PCT/JP2017/026681 patent/WO2018021237A1/ja active Application Filing
- 2017-07-24 CN CN201780046486.4A patent/CN109496332A/zh active Pending
- 2017-07-24 US US16/320,810 patent/US11049493B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355226A (ja) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 異言語間対話装置および異言語間対話方法 |
JP2005342862A (ja) * | 2004-06-04 | 2005-12-15 | Nec Corp | ロボット |
CN1842787A (zh) * | 2004-10-08 | 2006-10-04 | 松下电器产业株式会社 | 对话支援装置 |
JP2009211629A (ja) * | 2008-03-06 | 2009-09-17 | National Institute Of Information & Communication Technology | 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム |
CN105190607A (zh) * | 2013-03-15 | 2015-12-23 | 苹果公司 | 通过智能数字助理的用户培训 |
CN105247609A (zh) * | 2013-05-31 | 2016-01-13 | 雅马哈株式会社 | 利用言语合成对话语进行响应的技术 |
CN104505091A (zh) * | 2014-12-26 | 2015-04-08 | 湖南华凯文化创意股份有限公司 | 人机语音交互方法及系统 |
JP2015118710A (ja) * | 2015-01-09 | 2015-06-25 | 株式会社東芝 | 対話装置、方法及びプログラム |
CN105223851A (zh) * | 2015-10-09 | 2016-01-06 | 韩山师范学院 | 基于方言识别的智能插座系统及控制方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114080640A (zh) * | 2020-01-29 | 2022-02-22 | 互动解决方案公司 | 对话分析系统 |
CN114080640B (zh) * | 2020-01-29 | 2022-06-21 | 互动解决方案公司 | 对话分析系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2018021237A1 (ja) | 2018-02-01 |
JP6819988B2 (ja) | 2021-01-27 |
US11049493B2 (en) | 2021-06-29 |
US20190172444A1 (en) | 2019-06-06 |
JP2018017936A (ja) | 2018-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109496332A (zh) | 语音对话装置、语音对话方法以及存储介质 | |
JP7150770B2 (ja) | 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
US20230359656A1 (en) | Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface | |
US20210173834A1 (en) | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system | |
US10168800B2 (en) | Synchronization of text data among a plurality of devices | |
CN102549652B (zh) | 信息检索装置 | |
CN105830048A (zh) | 用于提供虚拟助理的系统和方法 | |
CN102549654A (zh) | 语音翻译系统、控制装置以及控制方法 | |
KR20160089152A (ko) | 화행 분석을 통한 스티커 추천 방법 및 시스템 | |
KR102144868B1 (ko) | 통화 기록 제공 장치 및 방법 | |
CN102549653A (zh) | 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 | |
CN104700835A (zh) | 提供话音接口的方法和系统 | |
US10860588B2 (en) | Method and computer device for determining an intent associated with a query for generating an intent-specific response | |
CN102473413A (zh) | 语音翻译系统、词典服务器装置及其程序 | |
US20220093103A1 (en) | Method, system, and computer-readable recording medium for managing text transcript and memo for audio file | |
CN103440234A (zh) | 自然语言理解系统及方法 | |
CN110600004A (zh) | 一种语音合成播放方法、装置和存储介质 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
JP5327737B2 (ja) | 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム | |
EP2261818A1 (en) | A method for inter-lingual electronic communication | |
CN107885720A (zh) | 关键词生成装置以及关键词生成方法 | |
Česonis | Human language technologies and digitalisation in a multilingual interpreting setting | |
Choi et al. | Pansori: ASR corpus generation from open online video contents | |
Stamatis et al. | On using chatbots and cpsv-ap for public service provision | |
CN112040329B (zh) | 动态处理并播放多媒体内容的方法及多媒体播放装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190319 |
|
WD01 | Invention patent application deemed withdrawn after publication |