CN110998719A - 信息处理设备和信息处理方法 - Google Patents
信息处理设备和信息处理方法 Download PDFInfo
- Publication number
- CN110998719A CN110998719A CN201880049934.0A CN201880049934A CN110998719A CN 110998719 A CN110998719 A CN 110998719A CN 201880049934 A CN201880049934 A CN 201880049934A CN 110998719 A CN110998719 A CN 110998719A
- Authority
- CN
- China
- Prior art keywords
- utterance
- information processing
- processing apparatus
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 84
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000004590 computer program Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 80
- 230000005540 biological transmission Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 129
- 238000005516 engineering process Methods 0.000 abstract description 40
- 230000003993 interaction Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 38
- 238000004891 communication Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 17
- 238000010008 shearing Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 4
- 241000343235 Maso Species 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 239000000945 filler Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Collating Specific Patterns (AREA)
Abstract
本技术涉及一种允许更方便的语音交互的信息处理设备和信息处理方法。本技术提供了一种包括处理单元的信息处理设备,该处理单元根据语音之间在意义方面的相关性来连接包括在用户的语音中的中断前后的语音,从而提供更方便的语音交互。本技术可以应用于例如语音对话系统。
Description
技术领域
本技术涉及一种信息处理设备和信息处理方法,并且特别地涉及一种可以提供更高便利性的语音交互的信息处理设备和信息处理方法。
背景技术
近年来,执行对应于用户的话语的响应的语音对话系统已经开始在各种领域中使用。
例如,当用户使用语音对话系统问‘我在哪里?’时,返回响应‘您在中央公园’(例如,参见专利文献1)。
引用列表
专利文献
专利文献1:日本未审查专利申请公开第2016-4270号
发明内容
本发明要解决的问题
同时,在通过语音接受指令的设备中,在用户的话语包括‘中断’的情况下,常规的口语理解程序无法正确地理解来自用户的指令。
换句话说,在语音对话系统中,在具有语音用户接口的设备中,首先,信号处理部从不断输入到麦克风的语音信号中剪切其中用户的话语被记录的区间。然后,语音识别部使用所剪切的语音信号,将用户的话语的内容转录为字符串,并且语言理解部仅使用所转录的字符串分析来自用户的指令的内容,从而导致以上结果。
当存在‘中断’时,信号处理部在用户完成说出意图之前剪切语音信号,并进行后续处理。即使用户随后另外给出一些指令,也仅是再次分析了内容,因此无法使设备根据用户的意图进行操作。
因此,需要一种技术,该技术即使在用户的话语包括‘中断’的情况下,也通过使语音对话系统根据用户的意图进行操作以提供更高便利性的语音交互。
本技术是鉴于这种情况而构思出来的,并且可以提供更高便利性的语音交互。
解决问题的方法
根据本技术第一方面的信息处理设备是包括一个处理器的信息处理设备,该处理器按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接中断前后的话语。
根据本技术第一方面的信息处理方法是用于信息处理设备的信息处理方法。该信息处理方法包括通过信息处理设备,按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接中断前后的话语。
在根据本技术第一方面的信息处理设备和信息处理方法中,按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接中断前后的话语。
根据本技术第二方面的信息处理设备是一种信息处理设备,该信息处理设备包括:处理器,该处理器从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及发送部,该发送部将所提取的过去话语历史与对应于用户的当前话语的语音信号一起发送到信息处理设备,该信息处理设备执行口语理解处理。
根据本公开第二方面的信息处理方法是用于信息处理设备的信息处理方法。该信息处理方法包括通过信息处理设备:从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及将所提取的过去话语历史与对应于用户的当前话语的语音信号一起发送到信息处理设备。该信息处理设备执行口语理解处理。
在根据本技术第二方面的信息处理设备和信息处理方法中,从用户的过去话语历史中提取过去话语历史。过去话语历史与对包括中断的话语进行的口语理解处理相匹配。所提取的过去话语历史与对应于用户的当前话语的语音信号一起被发送到信息处理设备。该信息处理设备执行口语理解处理。
根据本技术第一方面和第二方面中的每个方面的信息处理设备可以是独立的设备,或者可以是包括在一个设备中的内部模块。
发明效果
根据本技术的第一方面和第二方面,可以提供更高便利性的语音交互。
应当注意,这里描述的效果不必是限制性的,而是可以是本公开中描述的任何效果。
附图说明
[图1]是示出应用了本技术的语音对话系统的配置的示例的框图。
[图2]是示出语音处理设备的配置的示例的框图。
[图3]是示出服务器的配置的示例的框图。
[图4]是示出应用了本技术的语音对话系统的功能配置的示例的框图。
[图5]是示出语音信号的波形中的语音活动检测(VAD)的示例的示图。
[图6]是示出语音识别和口语理解程序API的输出的示例的示图。
[图7]是示出在做出‘中断’的同时说出话语的情况下的语音信号的波形的示例的示图。
[图8]是示出在做出‘中断’的同时说出话语的情况下的语音识别和口语理解程序API的输出的示例的示图。
[图9]是示出在未能识别说话者的情况下的语音识别和口语理解程序API的输出的示例的示图。
[图10]是示出关于话语的历史信息的示例的示图。
[图11]是示出根据本技术的语音识别和口语理解程序API的输出的示例的示图。
[图12]是示出关于话语的历史信息的示例的示图。
[图13]是示出根据本技术的语音识别和口语理解程序API的输出的示例的示图。
[图14]是示出关于话语的历史信息的示例的示图。
[图15]是示出根据本技术的语音识别和口语理解程序API的输出的示例的示图。
[图16]是示出描述一般口语理解处理的流程的流程图。
[图17]是示出参数的解释和转换的示例(转换之前的示例)的示图。
[图18]是示出参数的解释和转换的示例(转换之后的示例)的示图。
[图19]是示出输入假设的分析结果的示例的示图。
[图20]是示出输入假设的分析结果的示例的示图。
[图21]是示出根据本技术的描述口语理解处理的流程的流程图。
[图22]是示出在做出‘中断”的同时说出话语的情况下的语音信号的波形的示例的示图。
[图23]是示出针对每个输入假设获得的得分的示例的示图。
[图24]是示出其他传感器信息的示例的示图。
[图25]是示出关于话语的历史信息的示例的示图。
[图26]是示出根据本技术的语音识别和口语理解程序API的输出的示例的示图。
[图27]是示出描述语音对话处理的流程的流程图。
[图28]是示出计算机的配置的示例的示图。
具体实施方式
在下文中,参考附图描述本技术的实施方式。应当注意,按照以下顺序给出描述。
1.系统配置
2.前提技术
3.本技术的实施方式
(1)第一实施方式:使用话语历史信息的口语理解处理
(2)第二实施方式:使用传感器信息的口语理解处理
4.修改示例
5.计算机的配置
<1.系统配置>
(语音对话系统的配置)
图1是示出应用了本技术的语音对话系统的配置的示例的框图。
可以将语音对话系统1配置为包括安装在诸如用户的住宅的本地侧并用作用于语音对话服务的用户接口的语音处理设备10和安装在诸如数据中心的云端,并执行处理以实现语音对话功能的服务器20。
在语音对话系统1中,语音处理设备10和服务器20经由互联网30彼此耦接。
例如,语音处理设备10是被允许耦接到诸如家庭LAN(局域网)的网络的扬声器,并且也被称为所谓的智能扬声器等。例如,除了再现音乐之外,这种类型的扬声器还能够在诸如照明设备和空调的设备上执行语音操作等。
应当注意,语音处理设备10不限于扬声器,还可以被配置为例如诸如智能电话或移动电话、平板计算机等的移动装置。
语音处理设备10经由互联网30与服务器20协同工作,从而可以为用户提供语音对话服务(用于语音对话服务的用户接口)。
换句话说,语音处理设备10收集用户说出的语音(用户话语),并将其语音信号经由互联网30发送到服务器20。另外,语音处理设备10经由互联网接收从服务器20发送的处理数据,并输出对应于处理数据的语音。
服务器20是提供基于云的语音对话服务的服务器。
服务器20执行语音识别处理,以将从语音处理设备10经由互联网30发送的语音信号转换为文本数据。另外,服务器20对语音识别结果(文本数据)执行诸如口语理解处理的处理,并且经由互联网30将作为处理结果而获得的处理数据发送到语音处理设备10。
(语音处理设备的配置)
图2是示出图1中的语音处理设备10的配置的示例的框图。
在图2中,语音处理设备10包括处理器51、麦克风52、扬声器53、传感器54和通信I/F 55。
例如,处理器51包括CPU(中央处理单元)、微处理器等。处理器51用作语音处理设备10中的主处理器,执行各种类型的算术处理、各部的操作控制等。
麦克风52是将来自外部的声音转换为电信号的装置(声音收集器)。麦克风52为处理器51提供通过转换而获得的语音信号。
扬声器53是通过将电信号转换为物理振动来输出声音的装置。扬声器53输出对应于从处理器51提供的语音信号的声音。
传感器54包括各种类型的传感器。传感器54执行感测,并且为处理器51提供对应于感测结果的传感器信息(传感器数据)。
例如,作为传感器54,可以包括各种类型的传感器,诸如对物体进行成像的图像传感器,检测磁场(Magnetic Field)的大小和方向的磁传感器,检测加速度的加速度传感器、检测角度(姿态)、角速度和角加速度的陀螺仪传感器,检测相邻物体的接近传感器或检测诸如指纹、虹膜或脉冲的生物信息的生物传感器。
另外,在传感器54中可以包括用于测量周围环境的传感器,诸如检测温度的温度传感器、检测湿度的湿度传感器和检测周围环境的亮度的环境光传感器。应当注意,传感器数据可以包括各种类型的信息,诸如从GPS(Global Positioning System)信号等计算出的位置信息(位置数据)或者由时间计数装置(means)计数的时间信息。
通信I/F 55包括例如通信接口电路等。根据来自处理器51的控制,通信I/F 55访问耦接到互联网30的服务器20以交换各种类型的数据。
这里,例如,处理器51具有由语音对话系统1(图1)提供的部分功能。
换句话说,处理器51对从麦克风52提供的语音信号执行预定的信号处理,并且为通信I/F 55提供作为结果而获得的语音信号。这使用户的话语的语音信号经由互联网30被发送到服务器20。另外,处理器51能够将传感器数据提供给通信I/F 55以将传感器数据经由互联网30发送到服务器20。
另外,处理器51处理从通信I/F 55提供的语音信号,并且为扬声器53提供作为结果而获得的语音信号。这使扬声器53输出对应于系统响应(的语音信号)的响应语音。
应当注意,尽管未在图2中示出,但是语音处理设备10还可以包括用于显示各种类型的信息(例如,文本、图像等)的显示部、接受来自用户的操作的输入部、保存各种类型的数据(例如,语音数据、文本数据等)的存储部等。
这里,显示部包括例如液晶显示器、有机EL显示器等。输入部包括例如按钮、键盘等。另外,输入部可以被配置为其中集成了触摸传感器和显示部的触摸面板,并且允许获得对应于用户的手指或触摸笔(手写笔)的操作的操作信号。存储部包括例如作为非易失性存储器的闪存(Flash Memory)、作为易失性存储器的DRAM(Dynamic Random Access Memory)等。
(服务器的配置)
图3是示出图1中服务器20的配置的示例的框图。
在图3中,服务器20包括处理器71、通信I/F 72和数据库73。
处理器71包括例如CPU、微处理器等。处理器71用作服务器20中的主处理器,执行各种类型的算术处理、各部的操作控制等。
通信I/F 72包括例如通信接口电路等。根据来自处理器71的控制,通信I/F 72与经由互联网30耦接到通信I/F 72的语音处理设备10交换各种类型的数据。
例如,数据库73被配置为诸如硬盘(HDD:硬盘驱动器)、半导体存储器或光盘的大容量存储装置。
例如,数据库73包括用于执行语音识别处理的语音识别数据库、用于执行口语理解处理的口语理解数据库等。应当注意,语音识别数据库和口语理解数据库中的每一个都是数据库的示例,并且可以包括实现语音对话服务所必需的数据库(例如,知识数据库、话语数据库、对话历史数据库等)。
这里,例如,处理器71具有由语音对话系统1(图1)提供的部分功能。
换句话说,参考包括在数据库73中的语音识别数据库,处理器71执行诸如语音识别处理或口语理解处理的处理,所述处理将经由互联网30从语音处理设备10发送的用户的话语的语音信号转换为文本数据。这使对用户的系统响应被生成并且作为处理数据经由互联网30被发送到语音处理设备10。
(语音对话系统的功能配置的示例)
图4是示出应用了本技术的语音对话系统的功能配置的示例的框图。
如图4所示,语音对话系统1包括信号处理部101、语音识别部102和口语理解部103。
通过转换由麦克风52收集的声音而获得的语音信号被输入到信号处理部101。信号处理部101对输入的语音信号执行预定的信号处理,并且为语音识别部102提供作为结果而获得的语音信号。
例如,作为由信号处理部101执行的信号处理,执行剪切其中用户说出话语的区间的处理或去除语音信号中的噪声的处理。
参考语音-文本转换数据库等,语音识别部102执行将从信号处理部101提供的语音信号转换为文本数据的语音识别处理。语音识别部102为口语理解部103提供作为语音识别处理的结果而获得的语音识别结果(话语的文本数据)。
口语理解部103对从语音识别部102提供的语音识别结果执行预定的口语理解处理,并为在后续阶段中的处理器(未示出)提供作为结果而获得的语音输入的内容的分析结果。
例如,作为由口语理解部103执行的口语理解处理,执行将作为自然语言的语音识别结果(话语的文本数据)转换为机器可理解的表达的处理。
应当注意,假设信号处理部101被并入在本地侧的语音处理设备10中的处理器51(图2)中,并且由于需要大容量的内存或存储器,因此假设语音识别部102和口语理解部103被并入在云端的服务器20中的处理器71(图3)中。
另外,尽管未示出,但是例如,设置在口语理解部103的后续阶段中的处理器(未示出)例如执行诸如对话控制处理的处理作为基于来自口语理解部103的分析结果的处理,使得可以生成对用户的系统响应。
应当注意,为了便于描述,在图1的语音对话系统1中,示出了提供一个语音处理设备10的情况,但是例如可以为相应用户提供多个语音处理设备10。
另外,在图1的语音对话系统1中,示出了提供一个服务器20的情况,但是例如可以提供用于相应功能(模块)的多个服务器20。更具体地,例如,作为单独的服务器20,可以提供具有对应于语音识别部102的语音识别模块的服务器20、具有对应于口语理解部103的口语理解模块的服务器20等。
<2.前提技术>
通常,在具有语音接口的设备中,依次进行由信号处理部101执行的信号处理、由语音识别部102执行的语音识别处理以及由口语理解部103执行的口语理解处理。应当注意,本技术的主要目标是语音识别处理和口语理解处理,但是为了有助于本技术的内容的理解,还描述了由信号处理部101进行的信号处理的内容。
信号处理部101主要执行两种类型的处理。第一处理是从不断输入到麦克风52的语音信号中仅剪切其中用户说出话语的时间段的处理。该处理称为语音活动检测(VAD:Voice Activity Detection)。第二处理是抑制噪声并强调用户的语音以使得即使在噪声大的环境中也可以正确地执行语音识别的处理。该处理称为语音增强(SpeechEnhancement)。
这里,要注意的一点是,语音活动检测(VAD)仅由输入信号的物理特性来确定(决定)。换句话说,基于输入的声音的振幅或频率特性,该处理顺序地确定输入的声音的主要成分是否是语音,并且剪切其中在时间上连续输入语音的区间。
图5是示出语音信号的波形中的语音活动检测(VAD)的示例的示图。图5示出了当假设垂直方向表示振幅而水平方向表示时间时,用户的话语的语音信号的波形。
在信号处理部101中,从语音信号的波形中剪切从开始时间t1到结束时间t2的区间(section,部分),作为其中在时间上连续输入语音的区间。换句话说,在图5所示的语音信号的波形中,剪切从开始时间t1到结束时间t2的区间的处理是语音活动检测(VAD)。
这里,剪切从检测到语音的输入时到语音的输入停止时的时间段。在许多类型的语音活动检测中,在确定输入停止约500毫秒的情况下,确定语音的输入已完成,并且剪切信号。例如,诸如在‘kitte’中的小‘tsu’的促音(双辅音)在很短的时间内(约200到300毫秒)不发出声音,并且因此,将数值设置为500毫秒以防止此时语音信号被剪切。
同时,语音识别部102将由信号处理部101剪切的语音转录为具有用户实际说出话语的内容的文本(语音识别结果)。该语音识别结果(话语的文本数据)是自然语言,但是最终由口语理解部103将其转换为机器可理解的表达。
例如,在用户说出‘告诉我福岛明天的天气’的情况下,解释为“用户意图”是‘查看天气(Check Weather)’,并且在今天是2017年3月31日的情况下,解释为用户想要查看天气的“日期”是‘2017年4月1日’,并且“地点”是‘福岛’。口语理解部103从自然语言估计“用户意图”,并且执行分析其参数(这里,‘日期’和‘地点’)的处理。
例如,具有语音识别和口语理解这些功能的程序的API(在下文中,也称为语音识别和口语理解程序API)的输入(IN1)和输出(OUT1)如下。
<输入(IN1)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
例如,在图5所示的通过语音活动检测(VAD)剪切从开始时间t1到结束时间t2的区间中的语音信号的波形对应于剪切的语音信号。另外,开始剪切的时间对应于图5中的开始时间t1,并且完成剪切的时间对应于图5中的结束时间t2。应当注意,也可以考虑将完成剪切的时间作为当前时间。
<输出(OUT1)>
·语音识别结果
·语义帧列表
用户意图(intent)
参数(SlotSet)
这里,图6示出了对输入(IN1)执行处理的语音识别和口语理解程序API的输出的示例(OUT1)。
应当注意,根据作为文本格式类型的JSON(JavaScript(注册商标)ObjectNotation)来描述图6所示的输出的示例。JSON格式的对象通过使用冒号(:)构成一对键和值、通过由逗号(,)分隔来枚举这些对中的零个或零个以上,并且将所有这些括在大括号({})中来表示。另外,通过枚举、通过由逗号(,)分隔零个或零个以上对象和值并将它们括在方括号([])中来表示对象和值的有序列表。
“input”表示输入的语音信号的语音识别结果。这里,对剪切的语音信号执行语音识别处理,并且获得“TELL ME THE WEATHER IN FUKUSHIMA TOMORROW(告诉我福岛明天的天气)”的语音识别结果(话语的文本数据)。
“SemanticFrameList”表示语义帧(Semantic Frame)的列表,并且这里包括“intent”和“slotSet”作为“SemanticFrameList”的对象。
“intent”表示用户的意图。这里,设置了作为‘查看天气’的用户意图“CheckWeather”。
“slotSet”存储参数。在“CheckWeather”的情况下,将表示日期和时间的“DateTime”和表示位置的“Place”设置为“slotSet”。这里,将“2017-04-01”设置为“DateTime”,并且将“FUKUSHIMA(福岛)”设置为“Place”。
应当注意,作为参数的“slotSet”的内容根据“intent”而变化。例如,在用户意图是‘音乐再现’的“PlayMusic”的情况下,很可能采用用于音乐名称的参数“Track”,而用于音乐名称的参数“Track”最不可能采用用于“CheckWeather”。
这里,对单词‘Fukushima(福岛)’的解释起着关键作用。无法确定仅专有名词“Fukushima(福岛)”是一个人的名字、地名还是一家餐馆的名称等。在旨在查看天气的情况下,可以确定‘Fukushima(福岛)’很可能是地名。另一方面,例如,在话语‘Please e-mailto Fukushima(请发送电子邮件至福岛)’的情况下,‘Fukushima(福岛)’很可能是一个人的名字。
同时,在这种前提技术下,仅考虑当前输入。因此,例如,在用户在‘在福岛’之后做出‘中断’的同时说出‘在福岛…告诉我明天的天气’的话语的情况下,‘在福岛’和‘告诉我明天的天气’被分别解释。
应当注意,在本说明书中,包括在用户的话语中的‘…’符号表示话语中的‘中断’。
图7是示出在做出‘中断’的同时说出话语的情况下的语音信号的波形的示例的示图。图7示出了话语‘在福岛…告诉我明天的天气’的语音信号的波形,其中,‘在福岛’之后是‘中断’,并且输入停止约500毫秒。
因此,在信号处理部101中,对应于‘在福岛’的话语的从开始时间t11到结束时间t12的区间以及对应于‘告诉我明天的天气’的从开始时间t13到结束时间t14的话语的区间被剪切作为单独的语音区间。
此时,例如,语音识别和口语理解程序API的输入(IN2)和输出(OUT2)如下。
<输入(IN2)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
例如,在图7所示的通过语音活动活动检测(VAD)剪切并且对应于‘在福岛’的区间中的语音信号的波形对应于剪切的语音信号,并且是第一输入(IN2-1)。在该第一输入中,开始剪切的时间对应于图7中的开始时间t11,并且完成剪切的时间对应于图7中的结束时间t12。
另外,在图7所示的通过语音活动检测(VAD)剪切并且对应于‘告诉我明天的天气’的区间中的语音信号的波形对应于剪切的语音信号,并且是第二输入(IN2-2)。在该第二输入中,开始剪切的时间对应于图7中的开始时间t13,并且完成剪切的时间对应于图7中的结束时间t14。
<输出(OUT2)>
这里,图8示出了对输入(IN2)执行处理的语音识别和口语理解程序API的输出的示例(OUT2)。
作为第一输出(OUT2-1),图8示出了从对应于作为第一输入(IN2-1)的“在福岛”的区间中的语音信号中获得的语音识别结果(话语的文本数据)。在该第一输出中,仅‘在福岛’无法指示用户的意图,导致“intent”为“unknown”。
另外,作为第二输出(OUT2-2),示出了从对应于作为第二输入(IN2-2)的“告诉我明天的天气”的区间中的语音信号中获得的语音识别结果。在该第二输出中,将作为‘查看天气’的“CheckWeather”设置为用户的意图(“intent”),并且将“DateTime”设置为其参数(“slotSet”)。换句话说,在仅分析‘告诉我明天的天气’的情况下,不分析作为用户期望的地点(“Place”)的‘福岛’。
以这种方式,当用户的话语中存在‘中断’时,‘在福岛’和‘告诉我明天的天气’被分别解释,无法正确地读取用户的意图。
另外,例如,在诸如智能扬声器的语音处理设备10是家庭成员之间共享的设备的情况下,以及在用户向该装备说出‘我要查看我下周的时间表’的情况下,语音识别和口语理解程序API的输入(IN3)和输出(OUT3)如下。
<输入(IN3)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
例如,在通过语音活动检测(VAD)剪切并且对应于‘我要查看我下周的时间表’的区间中的语音信号的波形对应于剪切的语音信号。另外,剪切区间的头部的时间对应于开始剪切的时间,并且剪切区间的尾部的时间对应于剪切完成的时间。
<输出(OUT3)>
这里,图9示出了对输入(IN3)执行处理的语音识别和口语理解程序API的输出的示例(OUT3)。
图9示出了从对应于“我要查看我下周的时间表”的区间中的语音信号中获得的语音识别结果(话语的文本数据)。在该输出中,将作为‘时间表显示’的“ViewSchedule”设置为用户的意图(“intent”),并且将“DateTime”和“Owner”设置为“ViewSchedule”的参数(“slotSet”)。这里,将“2017-04-02/2017-04-08”设置为“DateTime”,并且将“我”设置为“Owner”。
“Owner”表示时间表的所有者。在该示例中,‘我’是时间表的所有者。接收到该信息的应用程序必须解释单词‘我’。这里,有必要使用‘我’是第一人称的知识来解决在时间表中注册的哪个用户是‘我’的问题。
以这种方式,例如,在用户的话语包括诸如‘我’或‘这个城镇’的指示语或相对表达的情况下,存在仅语言信息无法阐明其指示的内容的情况,无法正确地读取用户的意图。
因此,本技术提供了一种分析方法,该分析方法即使在用户的话语包括‘中断’的情况下,也可以使用用户的话语的内容的历史来正确地理解来自用户的指令的内容。另外,例如,在用户的话语中包括诸如‘我’或‘这个城镇’的指示语或相对表达的情况下,存在仅语言信息无法阐明其指示的内容的情况。在该情况下,使用诸如照相机图像的分析结果或通过GPS(Global Positioning System)获得的位置信息的信息,从而可以分析内容。
以下,参考本技术的实施方式描述本技术的内容。
<3.本技术的实施方式>
(1)第一实施方式
即使用户的话语包括‘中断’,本技术也可以使用最新的话语历史确定(判定)语义连接或中断,并正确地理解用户的意图。此时,向根据本技术的语音识别和口语理解程序API的输入,添加如下话语历史信息。
<输入>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
·话语历史信息(语音识别结果的字符串,以及对应的语音信号的剪切的开始时间)
这里,例如,下面示出了用户在做出类似‘在福岛…告诉我天气…这周末’的‘中断’的同时说出话语的情况下的输入和输出的示例。例如,当首先说出‘在福岛’,并且然后说出‘告诉我天气’时,语音识别和口语理解程序API的输入(IN4)和输出(OUT4)如下。
<输入(IN4)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
·话语历史信息
例如,在通过语音活动检测(VAD)剪切并且对应于‘告诉我天气’的区间中的语音信号的波形对应于剪切的语音信号。另外,剪切区间的头部的时间对应于开始剪切的时间,并且剪切区间的尾部的时间对应于剪切完成的时间。
另外,作为过去话语历史,话语历史信息包括语音识别结果的字符串和对应的语音信号的剪切的开始时间,该话语历史信息具有例如如图10所示的内容。
<话语历史信息(HI4)>
图10是示出话语历史信息的示例的示图。
“inputHistory”表示话语历史,并且这里包括“input”、“beginTime”以及“endTime”作为“inputHistory”的对象。
针对“input”,将语音识别结果的字符串设置为话语历史。这里,将在“告诉我天气”之前说出的且中间有‘中断’的‘在福岛’的语音识别结果(话语的文本数据)设置为历史。
“beginTime”和“endTime”是关于话语的开始和结束的时间信息,并且是被称为UNIX(注册商标)epoch milliseconds的计算器通常使用的格式的数据表示。这里,将时间信息“1490924835476”设置为语音‘在福岛’的开始时间,并且将时间信息“1490924836612”设置为语音的结束时间。
<输出(OUT4)>
图11是示出对包括话语历史信息(HI4)的输入(IN4)执行处理的语音识别和口语理解程序API的输出的示例(OUT4)的示图。
“currentInput”表示输入的语音信号的语音识别结果。这里,对剪切的语音信号执行语音识别处理,并且获得作为“告诉我天气”的语音识别结果(话语的文本数据)。
作为“SemanticFrameList”的对象,包括“intent”、“slotSet”以及“consideredInputs”。这里,将作为“查看天气”的“CheckWeather”设置为用户的意图(“intent”),并且将作为“福岛”的“Place”设置为其参数(“slotSet”)。
“consideredInputs”是用于估计“intent”或“slotSet”的输入。这里,“consideredInputs”指示在估计作为“CheckWeather”的“intent”以及作为“福岛”的“Place”时使用“在福岛”和“告诉我天气”。换句话说,不仅作为“告诉我天气”的最新语音识别结果,而且作为“在福岛”的话语历史信息(HI4)都被用于估计“intent”和“slotSet”。
接下来,例如,当说出‘告诉我天气’,并且然后在‘中断’之后说出‘这周末’时,语音识别和口语理解程序API的输入(IN5)和输出(OUT5)如下。
<输入(IN5)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
·话语历史信息
例如,在通过语音活动检测(VAD)剪切并且对应于‘这周末’的区间中的语音信号的波形对应于剪切的语音信号。另外,剪切区间的头部的时间对应于开始剪切的时间,并且剪切区间的尾部的时间对应于剪切完成的时间。
另外,此时,例如,话语历史信息具有如图12所示的内容。
<话语历史信息(HI5)>
图12是示出话语历史信息的示例的示图。
在图12中,作为第一话语历史,设置了在‘这周末’之前说出的且中间有‘中断’的“告诉我天气”的语音识别结果。在该第一话语历史中,将“1490924837154”设置为话语开始时间信息,并且将“1490924839284”设置为话语结束时间信息。
另外,作为第二话语历史,设置了在‘告诉我天气’之前说出的且中间有“中断”的“在福岛”的语音识别结果。在该第二话语历史中,将“1490924835476”设置为话语开始时间信息,并且将“1490924836612”设置为话语结束时间信息。
<输出(OUT5)>
图13示出了对包括话语历史信息(HI5)的输入(IN5)执行处理的语音识别和口语理解程序API的输出示例(OUT5)。
在图13中,获得作为“这周末”的语音识别结果作为“currentInput”。
将作为‘查看天气’的“CheckWeather”设置为用户的意图(“intent”),并且将“DateTime”和“Place”设置为其参数(“slotSet”)。另外,将“2017-04-01/2017-04-02”设置为“DateTime”,并且将“福岛”设置为“Place”。
这里,“consideredInputs”指示在估计作为“CheckWeather”的“intent”、作为“2017-04-01/2017-04-02”的“DateTime”以及作为“福岛”的“Place”时,使用“在福岛”、“告诉我天气”以及“这周末”。换句话说,不仅作为“这周末”的最新语音识别结果,而且作为“在福岛”和“告诉我天气”的话语历史信息(HI5)都用于估计“intent”和“slotSet”。
应当注意,在前述示例中,示出了连接最新话语历史的情况的示例,但并非总是需要连接历史。例如,当用户说出‘嗯…告诉我天气’时,语音识别和口语理解程序API的输入(IN6)和输出(OUT6)如下。
<输入(IN6)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
·话语历史信息
例如,在通过语音活动检测(VAD)剪切并且对应于‘告诉我天气’的区间中的语音信号的波形对应于剪切的语音信号。另外,剪切区间的头部的时间对应于开始剪切的时间,并且剪切区间的尾部的时间对应于剪切完成的时间。
另外,此时,例如,话语历史信息具有如图14所示的内容。
<话语历史信息(HI6)>
图14示出了话语历史信息的示例。
在图14中,将在‘告诉我天气’之前说出的且中间有‘间歇’的“嗯”设置为话语历史。在该话语历史中,将“1490924835476”设置为话语开始时间信息,并且将“1490924836612”设置为话语结束时间信息。
<输出(OUT6)>
图15示出了对包括话语历史信息(HI6)的输入(IN6)执行处理的语音识别和口语理解程序API的输出的示例(OUT6)。
在图15中,获得作为“告诉我天气”的语音识别结果作为“currentInput”。
作为用户的意图(“intent”),设置了作为‘查看天气’的“CheckWeather”,但是没有为其设置参数。
这里,“consideredInputs”指示在估计作为“查看天气”的“intent”时仅使用“告诉我天气”。换句话说,包括‘嗯’的话语历史信息(HI6)被提供作为最新历史,但是与用户指示设备相关的内容没有直接关系。因此,话语历史信息(HI6)不包括在“consideredInputs”中。
以这种方式,即使当用户在做出‘中断’的同时说出话语时,本技术也能使用最新话语内容的历史和其时间信息来估计用户期望的指令的内容。以下描述口语理解处理的具体内容。
口语理解部103具有三个信息资源,包括语义帧模板(Semantic FrameTemplate)、单词词典(包括专有名词数据库)以及语言模型。以下还将语义帧模板描述为‘IS(Information Source)1’,将单词词典描述为‘IS2’并且将语言模型描述为‘IS3’。
语义帧模板(IS1)是包括“intent”和“slotSet”的组合的模板。语义帧模板(IS1)具有“intent”的列表,并且例如是类似[“CheckWeather”、“ViewSchedule”、“SendMail”…]的列表。
此外,针对每个“intent”,定义了“slotSet”。例如,每个“intent”具有诸如“CheckWeather”:[“DateTime”、“Place”]的对应的应用程序。这意味着用于‘查看天气’的参数是‘日期和时间’和‘地点’。
单词词典(IS2)是其中保存所谓的单词及其“词性”和“属性得分列表”的列表。“词性”是诸如‘动词’、‘名词’或‘后置助词’的类型。“属性得分列表”是使用0至1的值来表示该单词针对每个“属性”是否可能的列表。
存在几种类型的“属性”,诸如‘日期’、‘地名’、‘音乐名称’等,每种类型都被设计为着眼于语音用户接口的应用。例如,在“属性得分列表”中,单词‘明天’是关于‘日期和时间’的表达,并且因此针对“日期和时间”的得分为1,而针对其他“属性”的得分均接近于0。
在该单词词典(IS2)中,还注册了专有名词。基于单词词典(IS2)中保存的专有名词数据库给出针对每个专有名词的“属性得分列表”。专有名词数据库是管理各种类别(属性)的专有名词(诸如地名、设施名称、音乐名称、电影名称或名人名字)的数据库。然而,这里,假设音乐名称、电影名称等不断更新为最新信息。
另外,针对每个专有名词,将识别度设置在0至1的范围内。例如,对于单词‘东京’,给定识别度1作为地名‘东京’,给定识别度0.6作为音乐名称‘东京’,等。应当注意,不需要对类别之间的识别度进行归一化。
同时,回到单词词典(IS2)的视角,针对专有名词,根据单词词典(IS2)中保存的专有名词数据库中的识别度来生成“属性得分列表”。例如,在专有名词数据库中将专有名词‘福岛’登记为‘地名’、‘人名’及‘餐馆名称’的情况下,其识别度作为属性得分给出。应当注意,未在专有名词数据库中登记的属性的属性得分为0。
语言模型(IS3)是关于针对每个“intent”的用户的话语中的短语的信息。例如,语言模型(IS3)保存““CheckWeather”包括诸如‘告诉我在<Place>中的<DateTime>的天气’、‘告诉我在<DateTime>时<Place>的天气’…的短语”的信息。<Place>和<DateTime>是分别表示用户的意图并与前述语义帧模板(IS1)中的参数相匹配的参数。
此外,语言模型(IS3)还保存关于用于<Place>和<DateTime>的短语和表达的信息。例如,语言模型(IS3)保存诸如‘<Place>包括诸如‘(地名)’、‘周边(地名)’…的短语和‘<DateTime>包括诸如‘(日期)’、‘(数字)月和(数字)日’、‘(数字)日’…’的短语的信息。这里,‘(地名)’是单词的属性,并且与由前述单词词典(IS2)管理的“属性”相匹配。
应当注意,除了作为前述模板保存之外,保存这些信息项的方式还可以是类似从大型语料库中学习到的统计模型的形式。另外,可以应用从诸如有限自动机(FSM:FiniteState Machine)或有限状态变换器(FST:Finite State Transducer)的模板中生成模型的方法。
同时,口语理解部103使用包括上述语义帧模板(IS1)、单词词典(IS2)以及语言模型(IS3)的三种资源,从输入的语音识别结果(话语的文本数据)分析用户的语音指令的含义。
这里,首先,为了比较的目的,描述了不使用话语历史信息的一般口语理解处理的流程。一般口语理解处理包括三个步骤,该三个步骤包括图16中的流程图所示的步骤S11至S13。
(1)针对每个“intent”,使用来自单词词典(IS2)和语言模型(IS3)的信息来计算输入字符串的匹配度(S11)。
(2)将输入字符串应用于语义帧模板(IS1)(S12)。
(3)根据需要执行参数解释和转换(S13)。
这里,下面,假设输入了作为‘告诉我东京周边明天的天气’的语音识别结果的情况,描述口语理解处理中的处理的示例。
首先,在步骤S11中,在语言模型(IS3)包括从大型语料库学习到的统计模型的情况下,口语理解部103将由该统计模型计算出的输入字符串的似然度用于匹配度。
这里,在使用有限自动机(FSM)的情况下,根据输入字符串是否可接受而取值为0或1。另外,在使用有限状态变换器(FST)的情况下,当将输入字符串与模板或单词词典中的属性得分进行比较时,可以计算出考虑诸如字符的插入、删除或替换的差的得分。
无论采用哪种方法,口语理解部103都将计算出的得分与阈值进行比较。在得分大于阈值的情况下,口语理解部103确定‘匹配’。
这里,在计算得分的处理中,单词‘明天’被给定为单词词典(IS2)中的“日期和时间”属性。另外,语言模型(IS3)保存了‘<DateTime>包括短语‘日期和时间”的信息。因此,确定‘明天’适用于<DateTime>。类似地,针对‘东京周边’,语言模型(IS3)保存了‘东京’是一个“地名”并且‘<Place>包括短语‘(地名)周边”的信息,并且因此确定‘东京周边’适合于<Place>。
然后,输入字符串作为一个整体与作为‘告诉我<Place>中的<DateTime>的天气’的“Check Weather”的模板相匹配,并且因此确定输入字符串适合于“Check Weather”。
接下来,在步骤S12中,口语理解部103能够在步骤S11的处理中确定输入字符串适合于“CheckWeather”、‘明天’适合于<DateTime>并且‘东京周边’适合于<Place>,因此将上述内容应用到语义帧模板(IS1)中。具体地,口语理解部103将上述内容应用到从口语理解部103输出的格式中。
这里,如图17所示,将作为查看天气的“CheckWeather”设置为用户的意图(“intent”),并且将“DateTime”和“Place”设置为“CheckWeather”的参数(“slotSet”)。另外,将“明天”和“东京周边”也分别设置为“DateTime”和“Place”。
最后,在步骤S13中,口语理解部103根据需要执行参数解释和转换。
例如,不可能根据应用程序处理表达‘明天’,并且因此将表达转换为具体的年-月-日格式。如果日期为2017年3月31日,则‘明天’是2017年4月1日。因此,使用预定义的格式来表示由用户指定的日期为2017年4月1日。
另外,在可以确定当查看天气时,通常不需要包括在表达‘东京周边’中的信息‘周边’的情况下,删除‘周边’部分。换句话说,在用户说出‘东京’的情况下或在用户说出‘东京周边’的情况下,无论是哪种情况,表达都被统一为‘东京’,以允许应用程序执行类似的处理。结果,例如,口语理解部103输出如图18所示的结果。
换句话说,在图18中,与图17相比,将作为用于‘查看天气’的“CheckWeather”的参数“DateTime”从“明天”改变为“2017-04-01”,并且将“Place”从“东京周边”改变为“东京”。
图16的步骤S11至S13中的前述处理是一般口语理解处理的流程图。同时,在根据本技术的口语理解处理中,使用了话语历史信息,但是必须确定是否考虑过去话语历史。
例如,假设用户在‘明天的’之后做出‘间歇’的同时说出诸如‘告诉我明天的…天气’的话语的情况。在这种情况下,对作为当前输入的‘告诉我天气’和耦接到一个历史之前的话语的‘告诉我明天的天气’中的每一个都执行分析处理。这里,‘告诉我天气’和‘告诉我明天的天气’均被视为输入假设。
此时,应当注意,例如在给定两条话语历史信息的情况下,利用三个输入假设执行分析处理,该三个输入假设包括仅使用当前输入的第一输入假设、仅通过组合一个话语历史而获得的第二输入假设以及作为两个话语历史的组合的第三输入假设。
然后,在处理第一输入假设‘告诉我天气’的情况下的分析结果如图19所示。另一方面,在处理第二输入假设‘告诉我明天的天气’的情况下的分析结果如图20所示。
基于关于‘哪个信息量较大’(针对每个输入假设所获得的信息量)的参考来确定最终输出哪个假设。“CheckWeather”具有<DateTime>和<Place>两个参数,并且在第一输入假设是‘告诉我天气’的情况下,两个参数都不存在(0/2),而在第二输入假设是‘告诉我明天的天气’的情况下,给定一个参数(1/2)。
因此,确定作为‘明天的’最新话语历史与用户‘想要查看天气’的意图相关。换句话说,在前述示例中,可以根据给定参数“0/2”和“1/2”的比率来执行确定。
然而,即使当组合话语历史时,也假设信息量不增加的情况,组合的信息作为句子不自然的情况。例如,针对‘嗯…告诉我东京的天气’的输入,无论是否组合‘嗯’,信息量都不会增加。在这种情况下,例如,选择较短的输入假设‘告诉我东京的天气’。
因此,这里,例如,假设输入假设通过考虑以下四个得分相互比较,以执行最终选择。
(1)第一得分:给到每个输入假设的“intent”的参数比率
(2)第二得分:基于针对每个输入假设的语言模型(IS3)的得分
(3)第三得分:在每个输入假设中,最早的过去话语历史与次早的过去话语历史之间的时间差
(4)第四得分:相应输入假设的组合的数量
应当注意,作为第二得分,例如,在作为语言模型(IS3),为“Check Weather”保存‘告诉我在<Place>中的<DateTime>的天气’的信息的情况下,当说出‘告诉我东京明天的天气’时,由于缺少后置助词而扣除得分。
另外,例如,在组合一个话语历史的情况下,第三得分是当前时间与历史中的时间之间的差。另外,例如,在组合两个话语历史的情况下,第三得分是一个历史前的时间与两个历史前的时间之间的差。这里,在仅使用当前输入的情况下,可以确定第三项得分为“0”。
另外,例如,在仅使用当前输入的情况下,第四得分确定为“0”,并且在仅组合一个话语历史的情况下,第四得分确定为“1”。
然而,在口语理解部103中,例如,可以确定具有较大值的第一得分和第二得分更有利,并且具有较小值的第三得分和第四得分更有利。换句话说,这里的确定防止了‘中断’前后的话语被随机组合(耦接)。
然后,在口语理解部103中,例如,当执行比较和最终选择时,可以在相互比较这些得分的值的同时使用执行诸如决策树(Decision Tree)的规则处理的方法,或者使用设计函数以从四个得分的值计算最终得分并使用该函数的方法。
应当注意,前述的第一得分至第四得分是各种得分的示例,并且可以使用第一得分至第四得分中的一部分得分,或者可以进一步使用另一得分。另外,当计算得分时,例如,可以在去除诸如‘嗯’的措辞中的不确定性(所谓的填充词)之后,执行得分计算处理。
(口语理解处理的流程图)
接下来,参考图21中的流程图,描述根据本技术的使用话语历史信息的口语理解处理的流程。
在步骤S21中,口语理解部103基于来自语音识别部102的语音识别结果,从当前输入和话语历史信息生成输入假设。
这里,例如,在用户在‘明天的’之后做出‘间歇’的同时说出类似‘告诉我明天的…天气’的话语的情况下,生成作为‘告诉我天气’的第一输入假设和作为‘告诉我明天的天气’的第二输入假设。
在步骤S22中,口语理解部103针对在步骤S21的处理中生成的每个输出假设计算匹配度。
这里,例如,针对作为‘告诉我天气’的第一输入假设和作为‘告诉我明天的天气’的第二输入假设中的每一个输入假设,计算第一得分至第四得分。例如,计算这些得分使得可以获得包括‘中断’前后的话语之间的关联性和语法连接中的至少一个的匹配度。
在步骤S23中,口语理解部103针对在步骤S21的处理中生成的每个输入假设(例如,第一输入假设和第二输入假设),从语义帧模板(IS1)生成输出候选。
在步骤S24中,口语理解部103根据需要执行参数解释和转换。这里,例如,如果‘这天’是2017年3月31日,则‘明天’是2017年4月1日。因此,使用预定格式来表示由用户指定的日期和时间为2017年4月1日。
在步骤S25中,口语理解部103将输入假设彼此进行比较,并且选择最合适的输入假设。
例如,这里,将作为‘告诉我天气’的第一输入假设与作为‘告诉我明天的天气’的第二输入假设进行比较,因此可以选择作为‘告诉我明天的天气’并且具有较大信息量的第二输入假设。换句话说,即使在用户在‘明天的’之后做出‘中断’的同时说出类似‘告诉我明天的…天气’的话语的情况下,也可以在第二输入假设中说出正确地读取用户的意图,而不是分别解释‘中断’前后的话语。
因此,以上已经描述了根据本技术的口语理解处理的流程。
(选择输入假设的另一示例)
接下来,参考图22和图23描述选择输入假设的另一示例。这里,例如,假设用户在‘我饿了’之后和‘今天的’之后做出‘间歇’的同时说出类似‘我饿了…今天的…告诉我天气’的话语的情况。
换句话说,在前述示例中,已经描述了包括一个‘中断’并使用一个话语之前的话语历史的情况。然而,这里,作为选择输入假设的另一示例,描述了包括两个‘中断’并使用一个话语之前的话语历史和两个话语历史之前的话语历史的情况。
图22示出了在说出‘我饿了…今天的…告诉我天气’的情况下的语音信号的波形的示例。
图22所示的语音信号的波形包括在‘我饿了’之后的‘中断’,并且输入停止约700毫秒。因此,在信号处理部101中,对应于‘我饿了’的话语的从开始时间t23到结束时间t24的区间以及对应于‘今天的’的话语的从开始时间t23到结束时间t24的区间被剪切作为单独的语音区间。
另外,‘今天的’之后是‘中断’,并且输入停止约600毫秒。因此,在信号处理部101中,对应于‘今天的’的话语的从开始时间t23到结束时间t24的区间以及对应于‘告诉我天气’的话语的从开始时间t25到结束时间t26的区间被剪切作为单独的语音区间。
此时,当前输入是‘告诉我天气’,并且过去话语历史是‘我饿了’和‘今天的’。因此,在口语理解部103中,例如,‘告诉我天气’、‘告诉我今天的天气’以及‘我饿了。告诉我今天的天气’分别生成作为第一输入假设、第二输入假设以及第三输入假设。(图21中的S21)
接下来,口语理解部103针对第一输入假设至第三输入假设中的每一个输入假设计算匹配度,并且还从语义帧模板(IS1)生成输出候选(图21中的S22和S23)。
这里,例如,通过获得前述的第一得分至第四得分来计算匹配度。图23示出了针对每个输入假设的得分的示例。
在图23中,针对作为“告诉我天气”的第一输入假设,将作为‘查看天气’的“CheckWeather”设置为用户的意图,而将“CheckWeather”的参数设置为‘无’。此时,没有作为用于“CheckWeather”的参数的“DateTime”或“Place”的信息,提供0/2作为第一得分。
另外,由于没有特定的元素作为基于语言模型(IS3)的得分被扣除,因此获得1.0作为用于第一输入假设的第二得分。此外,针对第一输入假设,仅使用作为“告诉我天气”的当前输入,并且因此针对第三得分和第四得分中的每一个获得0。
接下来,针对作为“告诉我今天的天气”的第二输入假设,设置作为‘查看天气’的“CheckWeather”,并且将日期和时间“今天”设定为“CheckWeather”的参数。此时,在作为用于“CheckWeather”的参数的“DateTime”和“Place”中,给定作为“DateTime”的一个信息项,并且因此获得1/2作为第一得分。
另外,由于没有特定的元素作为基于语言模型(IS3)的得分被扣除,因此获得1.0作为用于第二输入假设的第二得分。此外,针对第二输入假设,不仅使用作为“告诉我天气”的当前输入,而且使用作为“今天的”的话语历史,并且因此获得指示当前时间与历史中的时间之间的差的0.6秒(600毫秒)作为第三得分。另外,针对第二输入假设,一个话语历史与当前输入组合,并且因此获得1作为第四得分。
接下来,针对作为‘我饿了。告诉我今天的天气’的第三个输入假设,设置作为‘查看天气’的“CheckWeather”,并且将日期和时间“今天”设置为“CheckWeather”的参数。此时,在作为用于“CheckWeather”的参数的“DateTime”和“Place”中,给定作为“DateTime”的一个信息项,并且因此获得1/2作为第一得分。
另外,作为用于第三输入假设的第二得分,在扣除之后获得0.4作为基于语言模型(IS3)的得分。此外,针对第三输入假设,不仅使用作为“告诉我天气”的当前输入,而且使用作为‘今天的’和‘我饿了’的话语历史,并且因此获得指示一个历史之前的时间与两个历史之前的时间之间的差的0.7秒(700毫秒)作为第三得分。另外,针对第三输入假设,两个话语历史与当前输入组合,并且因此获得2作为第四得分。
此时,例如,如果‘这天’是2017年3月31日,则‘明天’是2017年4月1日。因此,口语理解部103将‘明天’转换为‘2017年4月1日’作为由用户指定的日期和时间(图21中的S24)。然后,根据因此获得的匹配度,口语理解部103将输入假设彼此进行比较以选择最合适的输入假设(图21中的S25)。
这里,具有较大值的第一得分和第二得分更有利,并且具有较小值的第三得分和第四得分更有利。因此,在相互比较这些得分的数值的同时,使用诸如决策树、预定函数的规则处理来选择最终要输出的输入假设。例如,在图23的示例中,选择作为‘告诉我今天的天气’的第二输入假设作为最合适的输出假设,并且执行对应于该第二输入假设的输出。
应当注意,在如图22和图23中的每一个所示的选择输入假设的另一示例中,在‘我饿了’之后有约700毫秒的‘中断’,并且然后说出‘今天的’。此外,在‘今天的’之后有约600毫秒的‘中断’,并且然后说出‘告诉我天气’。类似这些的约600毫秒或700毫秒的时间间隔被识别为‘中断’。然而,例如,存在诸如几十秒或几分钟的时间间隔不会被识别为“中断”的情况。
然后,这里,例如,将时间间隔前后的话语之间的时间间隔与阈值进行比较。在时间间隔大于阈值的情况下,当在不使用目标话语历史的情况下生成输入假设时,可以从输入假设中排除该时间间隔,而不是被识别为‘中断’。
作为第一实施方式,以上已经描述了使用话语历史信息的口语理解处理使得可以从用户的话语(包括‘中断’的话语)理解用户的意图,使得可以提供更高便利性的语音交互。
(2)第二实施方式
接下来,描述使用其他模态信息的分析处理。例如,在家庭成员之间共享的设备中,例如假设说出话语‘我的…我想查看下周的时间表’的话语的情况。在这种情况下,如果没有单词‘我的’是第一人称的语言知识和指示谁是说话者的信息,则应用程序无法从家庭成员的时间表中确定要显示谁的时间表。
在第二实施方式中,分析从设置在语音处理设备10中的传感器54(图2)获得的图像数据以识别谁是说话者,并且接收识别结果,从而可以识别由‘我的’指示的特定的人。
这里,例如,如上所述,当说出‘我的’之后做出‘中断’的同时说出‘我想查看下周的时间表’时,语音识别和口语理解程序API的输入(IN10)和输出(OUT10)如下。
<输入(IN10)>
·剪切的语音信号
·开始剪切的时间和完成剪切的时间
·话语历史信息(语音识别结果的字符串,以及对应的语音信号的剪切的开始时间)
·其他传感器信息
例如,在通过语音活动检测(VAD)剪切并且对应于‘我想查看下周的时间表’的区间中的语音信号的波形对应于剪切的语音信号。另外,剪切区间的头部的时间对应于开始剪切的时间,并且剪切区间的尾部的时间对应于剪切完成的时间。
另外,其他传感器信息包括从图像数据获得的关于说话者的信息,该其他传感器信息具有例如如图24所示的内容。此外,作为过去话语历史,话语历史信息包括语音识别结果的字符串和对应的语音信号的剪切的开始时间,该话语历史信息具有例如如图25所示的内容。
<其他传感器信息(SI10)>
图24是示出其他传感器信息的示例的示图。
“image”表示从图像数据获得的传感器信息,并且包括“speaker”作为“image”的对象。
针对“speaker”,设置从图像数据的分析结果获得的指示说话者的字符串。这里,从由传感器54(图2)获得的图像数据获得‘说话者是“麻美(Asami)”的信息,并且说出‘我的……我想查看下周的时间表’的“麻美”被设置为说话者。
<话语历史信息(HI10)>
图25是示出话语历史信息的示例的示图。
在图25中,作为话语历史,设置在‘我想查看下周的时间表’之前说出的且中间有‘中断’的“我的”。在该话语历史中,将“1490924841275”设置为话语开始时间信息,并且将“1490924842978”设置为话语结束时间信息。
<输出(OUT10)>
图26是示出语音识别和口语理解程序API的输出的示例(OUT10)的示图,该语音识别和口语理解程序API执行对应于包括其他传感器信息(SI10)和话语历史信息(HI10)的输入(IN10)的处理。
在图26中,作为“currentInput”,获得“我想查看下周的时间表”的语音识别结果。
将作为‘时间表显示’的“ViewSchedule”设置为用户的意图(“intent”),并且将“DateTime”和“Owner”设置为“ViewSchedule”的参数(“slotSet”)。另外,将“2017-04-02/2017-04-08”设置为“DateTime”,并且将“麻美”设置为“Owner”。
这里,“consideredInputs”指示当估计作为“ViewSchedule”的“intent”、作为“2017-04-02/2017-04”的“DateTime”以及作为“麻美”的“Owner”时,使用“我的”和“我想查看下周的时间表”。换句话说,不仅使用作为“我想查看下周的时间表”的最新语音识别结果,而且使用作为“我的”的话语历史信息(HI10)以及包括作为“麻美”的说话者的其他传感器信息(SI10)来估计“intent”和“slotSet”。
换句话说,这里,使用其他传感器信息(SI10)可以将‘我的’替换为‘麻美’。应当注意,该替换处理对应于图21中的步骤S24中的参数解释和转换处理,并且参数‘我的’被转换为‘麻美’,从而将‘我的’识别为‘麻美’。
应当注意,这里已经描述了使用从用作图像传感器的传感器54(图2)获得的图像数据的分析结果作为其他传感器信息的情况,但是可以使用从诸如磁性传感器或加速度传感器的另一传感器获得的传感器数据的分析结果。此外,例如,在获得从GPS(GlobalPositioning System)信号计算出的纬度/经度信息的情况下,可以将包括在用户的话语中的短语‘这个城镇’转换为诸如‘东京’或‘横滨’的特定城市名。
作为第二实施方式,以上已经描述了使用其他传感器信息以及话语历史信息的口语理解处理使得可以从用户的话语(包括‘中断’的话语)理解用户的意图。
(语音对话处理)
最后,参考图27中的流程图,描述由语音处理设备10和服务器20执行的语音对话处理的流程。
应当注意,在图27中,步骤S101至S107中的处理由本地侧的语音处理设备10执行,并且步骤S201至S204中的处理由云端的服务器20执行。
在步骤S101中,处理器51中的信号处理部101对通过转换由麦克风52收集并输入到信号处理部101的声音获得的语音信号执行语音检测处理。
在步骤S102中,处理器51对话语历史信息执行过滤处理。例如,在该过滤处理中,基于包括‘中断’或填充词之间的时间间隔、关于说话者的信息(说话者信息)以及关于用户的视线的信息(视线信息)的提取信息来提取话语历史。
换句话说,这里,将与由云端的服务器20执行的口语理解处理中使用的话语历史相匹配的话语历史分类。应当注意,填充词是在措辞中的不确定性,该填充词例如包括诸如‘嗯’或‘你知道’的单词。
在步骤S103中,处理器51基于发送策略确定发送目标的话语历史(发送历史)。在用于确定发送历史的处理中,例如,根据预定的发送策略,诸如用于发送的话语历史的最大数量(例如,最多10个历史等)或用于发送的话语历史的最大数据大小(例如,最多2MB等),从在步骤S102的过滤处理中提取的话语历史中,确定被实际发送的话语历史。
在步骤S104中,根据来自处理器51的控制,通信I/F 55经由互联网30将在步骤S103的处理中确定的话语历史信息与在步骤S101的处理中获得的语音信号一起发送到服务器20。应当注意,从传感器54(图2)获得的传感器数据可以在步骤S104中发送。
在步骤S201中,根据来自处理器71的控制,通信I/F 72经由互联网30接收从语音处理设备10发送的话语历史信息和语音信号。
在步骤S202中,处理器71中的语音识别部102对在步骤S201的处理中接收到的语音信号执行语音识别处理。
在步骤S203中,处理器71中的口语理解部103基于在步骤S201的处理中接收到的话语历史信息和在步骤S202的处理中获得的语音识别结果,执行口语理解处理。
应当注意,例如,作为口语理解处理,执行包括如图21所示的根据本技术的口语理解处理的处理。另外,例如,这里可以使用基于从传感器54(图2)获得的传感器数据的其他传感器信息。
在步骤S204中,根据来自处理器71的控制,通信I/F 72经由互联网30将在步骤S203的处理中获得的识别和分析的结果发送到语音处理设备10。
在步骤S105中,根据来自处理器51的控制,通信I/F 55经由互联网30接收从服务器20发送的识别和分析的结果。
在步骤S106中,处理器51例如通过将结果记录在存储器等上来保存在步骤S105的处理中接收到的识别和分析的结果。
在步骤S107中,根据来自处理器51的控制,扬声器53输出对应于在步骤S105的处理中接收到的识别和分析的结果(的语音信号)的语音。应当注意,语音处理设备10不限于从扬声器53输出语音,而是可以在显示部中显示例如对应于识别和分析的结果的文本信息、图像信息等。
因此,以上已经描述了语音对话处理的流程。
在该语音对话处理中,在云端的服务器20中,使用对应于前述第一实施方式或第二实施方式的话语历史信息来执行口语理解处理。这使得可以从用户的话语(包括‘中断’的话语)理解用户的意图,从而可以提供更高便利性的语音交互。
另外,在该语音对话处理中,在本地侧的语音处理设备10中,将要发送到云端的服务器20的话语历史信息分类,并根据发送策略发送,因此可以减少话语历史信息的数据量。例如,在语音处理设备10是移动设备的情况下,即使在不能确保用于移动通信的足够带宽的情况下,也可以可靠地发送话语历史信息。
应当注意,图27中的描述示出了由本地侧的语音处理设备10管理话语历史信息的情况,但是话语历史信息可以由云端的服务器20针对每个用户进行管理。
<4.修改示例>
前面的描述示出了将开始剪切的时间和完成剪切的时间与剪切的语音信号一起输入作为语音识别和口语理解程序API的输入(IN)的情况。然而,例如,在剪切开始和完成的时间中,例如,可以仅输入剪切完成的时间。
另外,在第二实施方式中,前面的描述示出了将话语历史信息和其他传感器信息以及语音信号和剪切的时间一起输入作为语音识别和口语理解程序API的输入(IN)的情况。然而,在不使用话语历史信息的情况下,可以仅将其他传感器信息与语音信号和剪切的时间一起输入。另外,这里,可以使用指示时间差的延迟信息。
在前面的描述中,已经描述了信号处理部101(图4)被结合在本地侧的语音处理设备10中的处理器51(图2)中,并且已经描述了语音识别部102(图4)和口语理解部103(图4)被结合在云端的服务器20中的处理器71(图3)中。然而,图4中的信号处理部101至口语理解部103中的每一个都可以被结合在语音处理设备10和服务器20中的任何一个中。
例如,图4中的信号处理部101至口语理解部103中的所有都可以被结合在语音处理设备10端,以使处理在本地侧完成。然而,即使在采用这种配置的情况下,每种类型的数据库也可以保存在互联网30上的服务器20中。另外,例如,图4中的信号处理部101至口语理解部103中的所有都可以被结合在服务器20端,以使由语音处理设备10收集的语音的原始数据经由互联网30发送到服务器20。
应当注意,在前面的描述中,已经描述了JSON(JavaScript(注册商标)ObjectNotation)作为语音识别和口语理解程序API的输出(OUT)的格式的示例,但是,例如,可以使用诸如XML(Extensible Markup Language)的另一种格式。另外,输出(OUT)的格式不限于文本格式,而可以是二进制格式。
<5.计算机的配置>
如上所述,可以通过硬件或软件执行一系列处理(例如,图21所示的口语理解处理等)。在通过软件执行一系列处理的情况下,将包括在软件中的程序安装在每个设备的计算机中。图28是示出利用程序执行上述一系列处理的计算机的硬件的配置的示例的框图。
在计算机1000中,CPU(中央处理单元)1001、ROM(只读存储器)1002和RAM(随机存取存储器)1003通过总线1004彼此耦接。输入/输出接口1005还耦接到总线1004。输入部1006、输出部1007、记录部1008、通信部1009和驱动器1010耦接到输入/输出接口1005。
输入部1006包括键盘、鼠标、麦克风等。输出部1007包括显示器、扬声器等。记录部1008包括硬盘、非易失性存储器等。通信部1009包括网络接口等。驱动器1010驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移动记录介质1011。
在如上所述配置的计算机1000中,CPU 1001经由输入/输出接口1005和总线1004将记录在ROM 1002或记录部1008中的程序加载到RAM 1003上,并执行程序,从而执行上述一系列处理。
例如,可以在作为包装介质等的可移动记录介质1011中记录并提供要由计算机1000(CPU 1001)执行的程序。另外,可以经由诸如局域网、互联网或数字卫星广播的有线或无线传输介质来提供程序。
在计算机1000中,将可移动记录介质1011安装到驱动器1010上使得可以经由输入/输出接口1005将程序安装在记录部1008中。另外,可以经由有线或无线传输介质,使用通信部1009接收程序,并将该程序安装在记录部1008中。另外,可以将程序预先安装在ROM1002或记录部1008中。
这里,在本说明书中,由计算机根据程序执行的处理不必按照流程图描述的顺序按时间顺序来执行。即,由计算机根据程序执行的处理还包括并行执行或单独执行的处理(例如,并行处理或基于对象的处理)。此外,程序可以由一台计算机(处理器)处理,或者分配给多台计算机并由多台计算机处理。
应当注意,本技术的实施方式不限于上述实施方式,并且在不脱离本技术的范围的情况下可以对上述实施方式进行各种修改。例如,针对本技术,可以采用云计算的配置,其中,将一种功能经由网络分配给多个设备,并协同处理。
另外,除了由一个设备执行外,还可以使多个设备共享并协同执行图21所示的口语理解处理和图27中的语音对话处理中的每个步骤。此外,在一个步骤中包括多个处理的情况下,可以用一个设备执行包括在一个步骤中的多个处理,并且还可以将多个处理分配给多个设备用于执行。
另外,本技术还可以如下配置。
(1)
一种信息处理设备,包括:
处理器,该处理器按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接中断前后的话语。
(2)
根据(1)的信息处理设备,其中,处理器基于当前话语和过去话语历史来计算按照语义单元的中断前后的话语之间的匹配度;
基于计算出的匹配度来确定是否将中断前后的话语耦接;以及
在确定中断前后的话语耦接的情况下,将中断前后的话语耦接。
(3)
根据(2)的信息处理设备,其中,处理器使用传感器信息以及当前话语和过去话语历史来计算按照语义单元的中断前后的话语之间的匹配度,该传感器信息从传感器中获得。
(4)
根据(2)或(3)的信息处理设备,其中,处理器针对每个输入假设计算得分,该输入假设分别通过假设性地耦接中断前后的话语而获得;
基于针对每个输入假设的计算出的得分,计算针对每个输入假设的中断前后的话语之间的匹配度;以及
基于针对每个输入假设的计算出的匹配度,从多个输入假设中选择一个输入假设。
(5)
根据(4)的信息处理设备,其中,处理器根据针对每个输入假设而获得的信息量来计算得分。
(6)
根据(4)或(5)的信息处理设备,其中,针对每个输入假设,该得分至少包括一个或多个以下得分:
第一得分,该第一得分从对应于用户的意图的功能参数的使用比率获得;
第二得分,该第二得分从与关于用户的话语的短语的信息相关的语言模型获得;
第三得分,该第三得分从当前话语和过去话语历史之间的时间间隔或过去话语历史之间的时间间隔获得;以及
第四得分,该第四得分从当前话语和过去话语历史的多种组合获得。
(7)
根据(1)至(6)中任一项的信息处理设备,其中,匹配度包括中断前后的话语之间的关联性和语法连接中的至少一个。
(8)
根据(2)至(7)中任一项的信息处理设备,其中,处理器基于中断之间的间隔来确定是否将中断前后的话语耦接。
(9)
根据(2)的信息处理设备,其中,处理器仅使用过去话语历史中的有效的话语历史。
(10)
根据(9)的信息处理设备,其中,过去话语历史包括关于用户的话语的内容和说出该话语的时间的信息。
(11)
根据(3)的信息处理设备,其中,传感器信息包括图像数据或位置信息,该图像数据通过对物体进行成像而获得,该位置信息指示用户的位置。
(12)
一种用于信息处理设备的信息处理方法,该信息处理方法包括通过信息处理设备,
按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接中断前后的话语。
(13)
一种信息处理设备,包括:
处理器,该处理器从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及
发送部,该发送部将所提取的过去话语历史与对应于用户的当前话语的语音信号一起发送到信息处理设备,该信息处理设备执行口语理解处理。
(14)
根据(13)的信息处理设备,其中,处理器基于包括中断之间的时间间隔、关于措辞的不确定性的信息、关于说话者的信息或关于用户的视线信息的提取信息来提取过去话语历史。
(15)
根据(13)或(14)的信息处理设备,其中,发送部基于用于发送的过去话语历史的最大数量或基于用于发送的过去话语历史的最大数据大小来发送过去话语历史。
(16)
一种用于信息处理设备的信息处理方法,该信息处理方法包括通过信息处理设备:
从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及
将所提取的过去话语历史与对应于用户的当前话语的语音信号一起发送到信息处理设备,该信息处理设备执行口语理解处理。
参考标记列表
1语音对话系统,10语音处理设备,20服务器,30互联网,51处理器,52麦克风,53扬声器,54传感器,55通信I/F,71处理器,72通信I/F,73数据库,101信号处理部,102语音识别部,103口语理解部,1000计算机,1001CPU。
Claims (16)
1.一种信息处理设备,包括:
处理器,所述处理器按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接所述中断前后的话语。
2.根据权利要求1所述的信息处理设备,其中,所述处理器基于当前话语和过去话语历史来计算按照所述语义单元的所述中断前后的话语之间的匹配度;
基于计算出的匹配度来确定是否将所述中断前后的话语耦接;以及
在确定所述中断前后的话语耦接的情况下,将所述中断前后的话语耦接。
3.根据权利要求2所述的信息处理设备,其中,所述处理器使用传感器信息以及所述当前话语和所述过去话语历史来计算按照所述语义单元的所述中断前后的话语之间的匹配度,所述传感器信息从传感器中获得。
4.根据权利要求2所述的信息处理设备,其中,所述处理器针对每个输入假设计算得分,所述输入假设分别通过假设性地耦接所述中断前后的话语而获得;
基于针对每个所述输入假设的计算出的得分,计算针对每个所述输入假设的所述中断前后的话语之间的匹配度;以及
基于针对每个所述输入假设的计算出的匹配度,从多个输入假设中选择一个输入假设。
5.根据权利要求4所述的信息处理设备,其中,所述处理器根据针对每个所述输入假设而获得的信息量来计算所述得分。
6.根据权利要求5所述的信息处理设备,其中,针对每个所述输入假设,所述得分至少包括一个或多个以下得分:
第一得分,所述第一得分从对应于所述用户的意图的功能参数的使用比率获得;
第二得分,所述第二得分从与关于所述用户的话语的短语的信息相关的语言模型获得;
第三得分,所述第三得分从所述当前话语和过去话语历史之间的时间间隔或所述过去话语历史之间的时间间隔获得;以及
第四得分,所述第四得分从所述当前话语和所述过去话语历史的多种组合获得。
7.根据权利要求1所述的信息处理设备,其中,所述匹配度包括所述中断前后的话语之间的关联性和语法连接中的至少一个。
8.根据权利要求2所述的信息处理设备,其中,所述处理器基于所述中断之间的间隔来确定是否将所述中断前后的话语耦接。
9.根据权利要求2所述的信息处理设备,其中,所述处理器仅使用所述过去话语历史中的有效的话语历史。
10.根据权利要求9所述的信息处理设备,其中,所述过去话语历史包括关于所述用户的话语的内容和说出所述话语的时间的信息。
11.根据权利要求3所述的信息处理设备,其中,所述传感器信息包括图像数据或位置信息,所述图像数据通过对物体进行成像而获得,所述位置信息指示所述用户的位置。
12.一种用于信息处理设备的信息处理方法,所述信息处理方法包括通过所述信息处理设备,
按照语义单元根据包括在用户的话语中的中断前后的话语之间的匹配度来耦接所述中断前后的话语。
13.一种信息处理设备,包括:
处理器,所述处理器从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及
发送部,所述发送部将所提取的过去话语历史与对应于所述用户的当前话语的语音信号一起发送到信息处理设备,所述信息处理设备执行所述口语理解处理。
14.根据权利要求13所述的信息处理设备,其中,所述处理器基于包括中断之间的时间间隔、关于措辞的不确定性的信息、关于说话者的信息或关于所述用户的视线信息的提取信息来提取所述过去话语历史。
15.根据权利要求14所述的信息处理设备,其中,所述发送部基于用于发送的所述过去话语历史的最大数量或基于用于发送的所述过去话语历史的最大数据大小来发送所述过去话语历史。
16.一种用于信息处理设备的信息处理方法,所述信息处理方法包括通过所述信息处理设备:
从用户的过去话语历史中提取与对包括中断的话语进行的口语理解处理相匹配的过去话语历史;以及
将所提取的过去话语历史与对应于所述用户的当前话语的语音信号一起发送到信息处理设备,所述信息处理设备执行所述口语理解处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017153883 | 2017-08-09 | ||
JP2017-153883 | 2017-08-09 | ||
PCT/JP2018/028201 WO2019031268A1 (ja) | 2017-08-09 | 2018-07-27 | 情報処理装置、及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110998719A true CN110998719A (zh) | 2020-04-10 |
Family
ID=65272301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880049934.0A Withdrawn CN110998719A (zh) | 2017-08-09 | 2018-07-27 | 信息处理设备和信息处理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200219487A1 (zh) |
EP (1) | EP3667660A4 (zh) |
JP (1) | JP7230806B2 (zh) |
CN (1) | CN110998719A (zh) |
WO (1) | WO2019031268A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113126765A (zh) * | 2021-04-22 | 2021-07-16 | 北京云迹科技有限公司 | 一种多模态输入交互方法、装置、机器人和存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11164562B2 (en) * | 2019-01-10 | 2021-11-02 | International Business Machines Corporation | Entity-level clarification in conversation services |
CN110223697B (zh) * | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
KR20210044985A (ko) * | 2019-10-16 | 2021-04-26 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0693221B2 (ja) * | 1985-06-12 | 1994-11-16 | 株式会社日立製作所 | 音声入力装置 |
US20130144609A1 (en) * | 2010-08-19 | 2013-06-06 | Nec Corporation | Text processing system, text processing method, and text processing program |
JP5838871B2 (ja) * | 2012-03-14 | 2016-01-06 | 富士通株式会社 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9666192B2 (en) * | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
-
2018
- 2018-07-27 CN CN201880049934.0A patent/CN110998719A/zh not_active Withdrawn
- 2018-07-27 WO PCT/JP2018/028201 patent/WO2019031268A1/ja unknown
- 2018-07-27 EP EP18843678.6A patent/EP3667660A4/en not_active Withdrawn
- 2018-07-27 JP JP2019535101A patent/JP7230806B2/ja active Active
- 2018-07-27 US US16/635,571 patent/US20200219487A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113126765A (zh) * | 2021-04-22 | 2021-07-16 | 北京云迹科技有限公司 | 一种多模态输入交互方法、装置、机器人和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019031268A1 (ja) | 2019-02-14 |
EP3667660A4 (en) | 2020-12-23 |
US20200219487A1 (en) | 2020-07-09 |
JP7230806B2 (ja) | 2023-03-01 |
JPWO2019031268A1 (ja) | 2020-09-10 |
EP3667660A1 (en) | 2020-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270074B2 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
US9361063B2 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
US20190370398A1 (en) | Method and apparatus for searching historical data | |
EP3477635B1 (en) | System and method for natural language processing | |
US11455989B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US20170011742A1 (en) | Device and method for understanding user intent | |
CN114041283A (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
US11574637B1 (en) | Spoken language understanding models | |
CN113614825A (zh) | 用于自动语音识别的字词网格扩增 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
KR20220004224A (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
US11532301B1 (en) | Natural language processing | |
KR20200080400A (ko) | 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치 | |
JPWO2019026617A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
JP2017125921A (ja) | 発話選択装置、方法、及びプログラム | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
US11626107B1 (en) | Natural language processing | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200410 |