CN112585674B - 信息处理装置、信息处理方法和存储介质 - Google Patents

信息处理装置、信息处理方法和存储介质 Download PDF

Info

Publication number
CN112585674B
CN112585674B CN201880096683.1A CN201880096683A CN112585674B CN 112585674 B CN112585674 B CN 112585674B CN 201880096683 A CN201880096683 A CN 201880096683A CN 112585674 B CN112585674 B CN 112585674B
Authority
CN
China
Prior art keywords
speech
unit
last
utterances
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880096683.1A
Other languages
English (en)
Other versions
CN112585674A (zh
Inventor
小路悠介
王文
冈登洋平
相川勇之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN112585674A publication Critical patent/CN112585674A/zh
Application granted granted Critical
Publication of CN112585674B publication Critical patent/CN112585674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

具有:语音识别部(121),其根据表示与一个或多个用户发出的多个讲话对应的语音的语音信号识别语音,将识别出的语音转换为字符串,确定多个讲话,并且确定与多个讲话中的各个讲话对应的时刻;讲话者识别部(122),其从一个或多个用户中识别发出多个讲话中的各个讲话的用户作为讲话者;讲话历史存储部(125),其存储讲话历史信息;意图估计部(123),其估计多个讲话中的各个讲话的意图;命令判定部(130),其参照讲话历史信息,在多个讲话中的最后的讲话与多个讲话中的最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为最后的讲话是用于控制对象的语音命令;以及命令执行部(150),其在判定为最后的讲话是语音命令的情况下,按照根据最后的讲话估计出的意图来控制对象。

Description

信息处理装置、信息处理方法和存储介质
技术领域
本发明涉及信息处理装置、信息处理方法和存储介质。
背景技术
以往,在通过语音识别来操作汽车导航(automotive navigation system)的情况下,驾驶者明确地进行按下讲话开关等操作来指示开始语音识别已成为主流。但是,每当要利用语音识别时进行这种操作是很麻烦的,期望不用明确地指示开始语音识别就能够利用语音识别。
在专利文献1中记载有一种语音识别装置,该语音识别装置设置有将驾驶者设为语音命令输入对象者而使用声源方向和图像来判定驾驶者有无发声的第1判定单元、以及判定同乘者有无发声的第2判定单元,利用驾驶者已发声来判断开始语音命令识别。
在专利文献1记载的语音识别装置中,将驾驶者刚刚发声紧后同乘者未发声设为语音命令识别的开始条件,由此,在车辆内存在同乘者的情况下,也能够区分是与别人聊天,还是朝向麦克风发声以进行语音输入。
现有技术文献
专利文献
专利文献1:日本特开2007-219207号公报
发明内容
发明要解决的课题
但是,在专利文献1记载的语音识别装置中,在助手席的同乘者正在打电话的情况下或者正在与其他同乘者讲话的情况下,即使驾驶者对汽车导航讲话,也不识别驾驶者的语音,因此,存在无法执行驾驶者的语音命令的问题。
具体而言,在以下的第1情况和第2情况下,专利文献1记载的语音识别装置无法执行驾驶者的语音命令。
第1情况:助手席的同乘者正在与后部座席同乘者对话,驾驶者发出命令。
第2情况:助手席的同乘者正在打电话,驾驶者发出命令。
因此,本发明的一个或多个方式的目的在于,在存在多个用户的情况下,也能够判定某个用户的讲话是否是用于输入语音命令的讲话。
用于解决课题的手段
本发明的一个方式的信息处理装置的特征在于,所述信息处理装置具有:语音取得部,其取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号;语音识别部,其根据所述语音信号识别所述语音,将识别出的所述语音转换为字符串,确定所述多个讲话,并且确定与所述多个讲话中的各个讲话对应的时刻;讲话者识别部,其从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者;讲话历史存储部,其存储讲话历史信息,该讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者;意图估计部,其估计所述多个讲话中的各个讲话的意图;命令判定部,其进行判定处理,在该判定处理中,参照所述讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令;以及命令执行部,其在所述命令判定部判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
本发明的一个方式的信息处理方法的特征在于,取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号,根据所述语音信号识别所述语音,将识别出的所述语音转换为字符串,确定所述多个讲话,确定与所述多个讲话中的各个讲话对应的时刻,从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者,估计所述多个讲话中的各个讲话的意图,参照讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令,该讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者,在判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
本发明的一个方式的程序的特征在于,所述程序使计算机作为以下部分发挥功能:语音取得部,其取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号;语音识别部,其根据所述语音信号识别所述语音,将识别出的所述语音转换为字符串,确定所述多个讲话,并且确定与所述多个讲话中的各个讲话对应的时刻;讲话者识别部,其从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者;讲话历史存储部,其存储讲话历史信息,其中,所述讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者;意图估计部,其估计所述多个讲话中的各个讲话的意图;命令判定部,其进行判定处理,在该判定处理中,参照所述讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令;以及命令执行部,其在所述命令判定部判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
发明效果
根据本发明的一个或多个方式,在存在多个用户的情况下,也能够判定某个用户的讲话是否是用于输入语音命令的讲话。
附图说明
图1是概略地示出实施方式1的意图理解装置的结构的框图。
图2是概略地示出实施方式1中的命令判定部的结构的框图。
图3是概略地示出实施方式1中的上下文适合率估计部的结构的框图。
图4是概略地示出实施方式1中的对话模型学习部的结构的框图。
图5是概略地示出意图理解装置的硬件结构的第1例的框图。
图6是概略地示出意图理解装置的硬件结构的第2例的框图。
图7是示出实施方式1中的意图理解装置进行的意图估计处理中的动作的流程图。
图8是示出讲话历史信息的一例的概略图。
图9是示出实施方式1中的面向汽车导航的命令判定处理的动作的流程图。
图10是示出上下文适合率估计处理的动作的流程图。
图11是示出上下文适合率的第1计算例的概略图。
图12是示出上下文适合率的第2计算例的概略图。
图13是示出学习对话模型的处理的动作的流程图。
图14是示出对话的确定例的概略图。
图15是示出学习数据的生成例的概略图。
图16是概略地示出实施方式2的意图理解装置的结构的框图。
图17是概略地示出实施方式2中的命令判定部的结构的框图。
图18是示出被识别为是第1模式的讲话组例的概略图。
图19是示出被识别为是第2模式的讲话组例的概略图。
图20是示出被识别为是第3模式的讲话组例的概略图。
图21是示出被识别为是第4模式的讲话组例的概略图。
图22是概略地示出实施方式2中的上下文适合率估计部的结构的框图。
图23是概略地示出实施方式2中的对话模型学习部的结构的框图。
图24是示出实施方式2的意图理解装置进行的意图估计处理中的动作的流程图。
图25是示出实施方式2中的面向汽车导航的命令判定处理的动作的流程图。
具体实施方式
在以下的实施方式中,对将作为信息处理装置的意图理解装置应用于汽车导航的例子进行说明。
实施方式1
图1是概略地示出实施方式1的意图理解装置100的结构的框图。
意图理解装置100具有取得部110、处理部120和命令执行部150。
取得部110是取得语音和影像的接口。
取得部110具有语音取得部111和影像取得部112。
语音取得部111取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号。例如,语音取得部111从未图示的麦克风等语音输入装置取得语音信号。
影像取得部112取得表示一个或多个用户所处的空间的影像的影像信号。例如,影像取得部112从未图示的摄像机等影像输入装置取得表示摄像到的影像的影像信号。这里,影像取得部112取得表示搭载有意图理解装置100的车辆(未图示)的车内的影像即车内影像的影像信号。
处理部120使用来自取得部110的语音信号和影像信号,判定来自用户的讲话是否是用于控制作为对象的汽车导航的语音命令。
处理部120具有语音识别部121、讲话者识别部122、意图估计部123、讲话历史登记部124、讲话历史存储部125、乘车人数判定部126和命令判定部130。
语音识别部121识别由语音取得部111取得的语音信号所示的语音,将识别出的语音转换为字符串,确定来自用户的讲话。然后,语音识别部121生成表示已确定的讲话的讲话信息。
此外,语音识别部121确定与已确定的讲话对应的时刻,例如识别出与该讲话对应的语音的时刻。然后,语音识别部121生成表示已确定的时刻的时刻信息。
另外,语音识别部121中的语音识别利用公知技术。例如,通过利用鹿野清宏、伊藤克亘、河原达也、武田一哉、山本干雄编著的“IT Text语音识别系统”、株式会社OHM公司、2001年、3章(43页~50页)记载的技术,能够实现语音识别的处理。
具体而言,使用按照每个音素而学习到的时间序列的统计模型即隐马尔可夫模型(Hidden Markov Model:HMM),以最高的概率输出观测到的语音特征量的序列,由此识别语音即可。
讲话者识别部122根据由语音取得部111取得的语音信号所示的语音,识别发出讲话的用户作为讲话者。然后,讲话者识别部122生成表示识别出的讲话者的讲话者信息。
另外,讲话者识别部122中的讲话者识别处理利用公知技术。例如,通过利用古井贞熙著的“语音信息处理”、森北出版株式会社、1998年、6章(133页~146页)记载的技术,能够实现讲话者识别的处理。
具体而言,预先登记多个讲话者的语音的标准模式,选择已登记的标准模式中的相似度(似然度)最高的讲话者即可。
意图估计部123根据由语音识别部121生成的讲话信息所示的讲话估计用户的意图。
这里,意图估计的方法利用与文本分类有关的公知技术。例如,通过利用Pang-ning Tan、Michael Steinbach、Vipin Kumar著的“Introduction To Data Mining”、Person Education,Inc、2006年、5章(256页~276页)记载的文本分类技术,能够实现意图估计处理。
具体而言,利用SVM(Support Vector Machine:支持向量机),得到根据学习数据对多个类(意图)进行分类的线,将由语音识别部121生成的讲话信息所示的讲话分类为任意的类(意图)即可。
讲话历史登记部124将由语音识别部121生成的讲话信息所示的讲话、与该讲话信息对应的时刻信息所示的时刻、以及与该讲话信息对应的讲话者信息所示的讲话者作为一个项目,登记到讲话历史存储部125中存储的讲话历史信息。
讲话历史存储部125存储包含多个项目的讲话历史信息。多个项目分别示出讲话、与该讲话对应的时刻、以及与该讲话对应的讲话者。
乘车人数判定部126是人数判定部,使用来自影像取得部112的影像信号所示的车内影像判定乘车人数。
另外,乘车人数判定部126中的人数判定利用与面部识别有关的公知技术。例如,通过利用酒井幸市著的“图像处理和图案识别入门”、森北出版株式会社、2006年、7章(119页~122页)记载的面部识别技术,能够实现乘车人数判定的处理。
具体而言,通过面部图像的图案匹配来识别乘车的人的面部,由此能够判定乘车人数。
命令判定部130利用由语音识别部121生成的讲话信息、由讲话者识别部122生成的讲话者信息、以及讲话历史存储部125中存储的讲话历史信息中紧前的项目,判定当前输入的用户的讲话是否是面向汽车导航的语音命令。
具体而言,命令判定部130参照讲话历史信息,判定多个讲话中的最后的讲话(换言之讲话信息所示的讲话)与多个讲话中的最后的讲话的紧前的一个或多个讲话是否是对话。然后,命令判定部130在判定为不是对话的情况下,判定为最后的讲话是用于控制对象的语音命令。
图2是概略地示出命令判定部130的结构的框图。
命令判定部130具有讲话历史提取部131、上下文适合率估计部132、一般对话模型存储部135、判定执行部136、判定规则存储部137和对话模型学习部140。
讲话历史提取部131从讲话历史存储部125中存储的讲话历史信息中提取最后的讲话的紧前的一个或多个项目。
上下文适合率估计部132利用一般对话模型存储部135中存储的一般对话模型信息,估计最后的讲话即当前的用户的讲话与从讲话历史存储部125中提取出的项目中包含的讲话之间的上下文适合率。上下文适合率表示这些讲话作为上下文的适合性程度。因此,在上下文适合率高的情况下,能够判定为正在进行对话,在上下文适合率低的情况下,能够判定为未进行对话。
图3是概略地示出上下文适合率估计部132的结构的框图。
上下文适合率估计部132具有上下文适合率计算部133和上下文适合率输出部134。
上下文适合率计算部133参照一般对话模型存储部135中存储的一般对话模型信息,计算输入到语音取得部111的讲话与讲话历史存储部125中存储的讲话历史信息的紧前的项目中包含的讲话之间的上下文适合率。
另外,上下文适合率计算部133中的上下文适合率的计算能够通过IlyaSutskever、Oriol Vinyals、Quoc V.le著的“Sequence to Sequence Learning withNeural Networks”(Advances in neural information processing systems)、2014年记载的编码器解码器模型(Encoder Decoder Model)技术来实现。
具体而言,将来自讲话历史信息的紧前的项目中包含的讲话设为输入文X,将输入到语音取得部111的讲话设为输出文Y,使用已学习到的一般对话模型信息,按照LSTM-LM(Long short-Term Memory-Language Model)的公式计算输入文X成为输出文Y的概率P(Y|X),由此,将该概率P设为上下文适合率即可。
换言之,上下文适合率计算部133计算从紧前的讲话到当前的用户的讲话的概率作为上下文适合率。
上下文适合率输出部134将由上下文适合率计算部133计算出的概率P作为上下文适合率提供给判定执行部136。
返回图2,一般对话模型存储部135存储一般对话模型信息,该一般对话模型信息表示通过多个用户进行的一般对话而学习到的对话模型即一般对话模型。
判定执行部136按照判定规则存储部137中存储的判定规则,判定当前的用户的讲话是否是面向汽车导航的命令。
判定规则存储部137是存储用于判定当前的用户的讲话是否是面向汽车导航的命令的判定规则的数据库。
对话模型学习部140根据一般对话来学习对话模型。
图4是概略地示出对话模型学习部140的结构的框图。
对话模型学习部140具有一般对话存储部141、学习数据生成部142和模型学习部143。
一般对话存储部141存储表示多个用户一般进行的对话的一般对话信息。
学习数据生成部142根据一般对话存储部141中存储的一般对话信息对最后的讲话和紧前的讲话进行分离,将其变更为学习数据的格式。
模型学习部143利用由学习数据生成部142生成的学习数据学习编码器解码器模型(Encoder Decoder Model),使一般对话模型存储部135存储将已学习到的模型表示为一般对话模型的一般对话模型信息。另外,关于模型学习部143中的处理,使用上述“Sequenceto Sequence Learning with Neural Networks”记载的方法即可。
返回图1,命令执行部150执行针对语音命令的动作。具体而言,在命令判定部130判定为最后的讲话是语音命令的情况下,命令执行部150按照根据该最后的讲话估计出的意图来控制对象。
图5是概略地示出意图理解装置100的硬件结构的第1例的框图。
意图理解装置100例如具有CPU(Central Processing Unit:中央处理单元)等处理器160;存储器161;麦克风、键盘和摄像机等的传感器接口(传感器I/F)162;作为存储装置的硬盘163;以及用于向未图示的扬声器(语音输出装置)或显示器(显示装置)输出影像、语音或指示的输出接口(输出I/F)164。
具体而言,处理器160利用传感器I/F162,由此能够实现取得部110。处理器160将硬盘163中存储的程序和数据读出到存储器161并执行和利用,由此能够实现处理部120。处理器160将硬盘163中存储的程序和数据读出到存储器161并执行和利用,并且根据需要从输出I/F164向其他设备输出影像、语音或指示,由此能够实现命令执行部150。
这种程序可以通过网络来提供,此外,也可以记录在记录介质中来提供。即,这种程序例如可以作为程序产品来提供。
图6是概略地示出意图理解装置100的硬件结构的第2例的框图。
代替图5所示的处理器160和存储器161,如图6所示,也可以设置处理电路165。
处理电路165能够由单一电路、复合电路、程序化的处理器、并行程序化的处理器、ASIC(Application Specific Integrated Circuit:专用集成电路)或FPGA(FieldProgrammable Gate Array:现场可编程门阵列)等构成。
图7是示出意图理解装置100进行的意图估计处理中的动作的流程图。
首先,语音取得部111从未图示的麦克风取得表示用户讲出的语音的语音信号(S10)。语音取得部111将语音信号交给处理部120。
接着,讲话者识别部122根据语音信号进行讲话者识别处理(S11)。讲话者识别部122将表示识别出的讲话者的讲话者信息交给讲话历史登记部124和命令判定部130。
接着,语音识别部121识别语音信号所示的语音,将识别出的语音转换为字符串,由此,生成表示由转换后的字符串构成的讲话的讲话信息、以及表示进行了这种语音识别的时刻的时刻信息(S12)。语音识别部121将该讲话信息和时刻信息交给意图估计部123、讲话历史登记部124和命令判定部130。另外,将语音识别部121最后生成的讲话信息所示的讲话设为当前的用户的讲话。
接着,讲话历史登记部124将示出讲话信息所示的讲话、与该讲话信息对应的时刻信息所示的时刻、以及与该讲话信息对应的讲话者信息所示的讲话者的项目登记到讲话历史存储部125中存储的讲话历史信息(S13)。
图8是示出讲话历史信息的一例的概略图。
图8所示的讲话历史信息170具有多个行,多个行分别成为示出讲话信息所示的讲话、与该讲话信息对应的时刻信息所示的时刻、以及与该讲话信息对应的讲话者信息所示的讲话者的一个项目。
例如,图8所示的讲话历史信息170成为两名讲话者讲出的内容。
返回图7,接着,意图估计部123根据语音识别的结果即讲话信息来估计用户的意图(S14)。
意图估计部123中的意图估计成为文本分类问题。预先定义意图,意图估计部123将当前的用户的讲话分类为任意的意图。
例如,“打开空调”这样的当前的用户的讲话被分类为意味着启动空调设备的“TURN_ON_AIR_CONDITIONER”这样的意图。
此外,“今天下雨”这样的当前的用户的讲话被分类为表示意图不明的“UNKNOWN”这样的意图。
即,意图估计部123在能够将当前的用户的讲话分类为预定的特定意图的情况下,将其分类为该意图,在无法分类为预定的特定意图的情况下,将其分类为表示意图不明的“UNKNOWN”。
接着,意图估计部123判定意图估计结果是否是“UNKNOWN”(S15)。在意图估计结果不是UNKNOWN的情况下(S15:是),将意图估计结果交给命令判定部130,处理进入步骤S16。在意图估计结果是“UNKNOWN”的情况下(S15:否),处理结束。
在步骤S16中,影像取得部112从摄像机取得表示车内影像的影像信号,将该影像信号交给乘车人数判定部126。
接着,乘车人数判定部126根据车内影像判定乘车人数,将表示判定出的乘车人数的乘车人数信息交给命令判定部130(S17)。
接着,命令判定部130判定乘车人数信息所示的乘车人数是否为1人(S18)。在乘车人数为1人的情况下(S18:是),处理进入步骤S21,在乘车人数不是1人的情况下,换言之在乘车人数为多人的情况下(S18:否),处理进入步骤S19。
在步骤S19中,命令判定部130判定意图估计结果是否是面向汽车导航的命令即语音命令。关于步骤S19中的处理,使用图9进行详细说明。
然后,在意图估计结果是语音命令的情况下(S20:是),处理进入步骤S21,在意图估计结果不是语音命令的情况下(S20:否),处理结束。
在步骤S21中,命令判定部130将意图估计结果交给命令执行部150,命令执行部150执行针对该意图估计结果的动作。
例如,在意图估计结果是“TURN_ON_AIR_CONDITIONER”的情况下,命令执行部150通过输出指示,启动车内的空调设备。
图9是示出面向汽车导航的命令判定处理的动作的流程图。
首先,讲话历史提取部131从讲话历史存储部125中存储的讲话历史信息中提取紧前的项目(S30)。讲话历史提取部131例如以过去10秒钟的项目或过去10件项目等预定的基准提取项目。然后,讲话历史提取部131将提取出的项目与表示当前的用户的讲话的讲话信息一起交给上下文适合率估计部132。
接着,上下文适合率估计部132使用一般对话模型存储部135中存储的一般对话模型信息,估计当前的用户的讲话与紧前的项目中包含的讲话之间的上下文适合率(S31)。另外,关于这里的处理的详细情况,使用图10进行详细说明。上下文适合率估计部132将估计结果交给判定执行部136。
接着,判定执行部136按照判定规则存储部137中存储的判定规则信息所示的判定规则,判定是否执行意图估计结果(S32)。
例如,作为判定规则1,使用“在上下文适合率大于阈值0.5的情况下,判定为不是面向导航的命令”这样的判定规则。根据该判定规则,在上下文适合率为作为阈值的0.5以下的情况下,判定执行部136判定为意图估计结果是语音命令即面向导航的命令,在上下文适合率大于0.5的情况下,判定执行部136判定为意图估计结果不是面向导航的命令。
此外,作为判定规则2,也可以使用利用从紧前的讲话起的经过时间计算对上下文适合率进行加权而成的加权上下文适合率的规则。判定执行部136使用该加权上下文适合率进行判定规则1的判定,由此,到当前的用户的讲话为止的经过时间越长,则能够使上下文适合率越低。
另外,不是必须使用判定规则2。
在不使用判定规则2的情况下,根据判定规则1将上下文适合率与阈值进行比较,由此能够进行判定。
另一方面,在使用判定规则2的情况下,将利用权重对计算出的上下文适合率进行修正后的值与阈值进行比较,由此能够进行判定。
图10是示出上下文适合率估计处理的动作的流程图。
首先,上下文适合率计算部133使用一般对话模型存储部135中存储的一般对话模型信息,计算当前的用户的讲话与紧前的项目中包含的讲话之间的适合性程度即概率作为上下文适合率(S40)。
例如,如图11所示的例1那样,在当前的用户的讲话为“真希望气温降低”的情况下,与紧前的讲话之间的关联较强,因此,上下文适合率计算为0.9。
另一方面,如图12所示的例2那样,在当前的用户的讲话为“接着右转?”的情况下,与紧前的讲话之间的关联较弱,因此,上下文适合率计算为0.1。
然后,上下文适合率计算部133将计算出的上下文适合率交给判定执行部136(S41)。
例如,如图11的例1所示,在上下文适合率为0.9的情况下,在判定规则1下,判定为意图估计结果不是面向汽车导航的命令。
另一方面,如图12的例2所示,在上下文适合率为0.1的情况下,在判定规则1下,判定为意图估计结果是面向汽车导航的命令。
另外,在图11的例1中,在到当前的用户的讲话为止的经过时间为4秒的情况下,通过对图11的例1应用判定规则2,加权上下文适合率成为1/4×0.9=0.225。该情况下,根据判定规则1,判定结果成为面向汽车导航的命令。
图13是示出学习对话模型的处理的动作的流程图。
首先,学习数据生成部142提取一般对话存储部141中存储的一般对话信息,按照每个对话,对最后的讲话和其他讲话进行分离,生成学习数据(S50)。
例如,如图14所示,学习数据生成部142根据一般对话存储部141中存储的一般对话信息确定一个对话。
然后,例如如图15所示,学习数据生成部142将一个对话的最后的讲话设为当前的用户的讲话,将其他讲话设为紧前的讲话,生成学习数据。
学习数据生成部142将生成的学习数据交给模型学习部143。
返回图13,接着,模型学习部143根据学习数据,通过深度学习方法生成编码器解码器模型(Encoder Decoder Model)(S51)。然后,模型学习部143使一般对话模型存储部135存储表示生成的编码器解码器模型(Encoder Decoder Model)的一般模型信息。
在以上的实施方式中,关于模型学习部143中的处理,将编码器解码器模型(Encoder Decoder Model)设为学习方法进行了说明,但是,还能够利用其他方法。例如,还能够利用SVM等存在示教的机器学习方法。
但是,在利用SVM等一般的存在示教的机器学习方法的情况下,需要进行对学习数据标注与上下文一致或不一致这样的标签的作业,因此,存在学习数据的生成成本变高的倾向。在编码器解码器模型(Encoder Decoder Model)的情况下,不对学习数据标注标签,这方面是优异的。
实施方式2
图16是概略地示出作为实施方式2的信息处理装置的意图理解装置200的结构的框图。
意图理解装置200具有取得部210、处理部220和命令执行部150。
实施方式2的意图理解装置200的命令执行部150与实施方式1的意图理解装置100的命令执行部150相同。
取得部210是取得语音、影像和呼出/呼入历史的接口。
取得部210具有语音取得部111、影像取得部112和呼出/呼入信息取得部213。
实施方式2中的取得部210的语音取得部111和影像取得部112与实施方式1中的取得部110的语音取得部111和影像取得部112相同。
呼出/呼入信息取得部213从用户具有的便携终端取得表示通话的呼出/呼入的历史的呼出/呼入信息。呼出/呼入信息取得部213将呼出/呼入信息交给处理部220。
处理部220使用来自取得部210的语音信号、影像信号和呼出/呼入信息,判定用户的语音是否是用于控制作为对象的汽车导航的语音命令。
处理部220具有语音识别部121、讲话者识别部122、意图估计部123、讲话历史登记部124、讲话历史存储部125、乘车人数判定部126、话题判定部227和命令判定部230。
实施方式2中的处理部220的语音识别部121、讲话者识别部122、意图估计部123、讲话历史登记部124、讲话历史存储部125和乘车人数判定部126与实施方式1中的处理部120的语音识别部121、讲话者识别部122、意图估计部123、讲话历史登记部124、讲话历史存储部125和乘车人数判定部126相同。
话题判定部227判定与语音识别部121的语音识别结果即讲话信息所示的讲话有关的话题。
通过利用SVM等存在示教的机器学习方法,能够实现这里的话题的判定。
然后,话题判定部227在判定出的话题是预定的话题列表中记载的特定话题的情况下,判定为当前的用户的讲话是作为面向汽车导航的命令的语音命令。
预定的话题列表中记载的特定话题例如是与很难判定是面向人与人之间的讲话还是面向汽车导航的讲话的模棱两可的讲话有关的话题。例如,作为该特定话题,存在“道路引导”或“空调操作”这样的话题。
然后,在话题判定部227例如将当前的用户的讲话即“还有几分钟到?”判定为“道路引导”这样的话题的情况下,判定出的话题“道路引导”记载于预定的话题列表中,因此,话题判定部227将其判定为面向汽车导航的命令。
通过如上所述这样构成,能够将很难判定是面向人与人之间的讲话还是面向汽车导航的讲话的讲话必定判定为面向汽车导航的命令,能够抑制误判定为面向人与人之间的讲话。
命令判定部230利用由语音识别部121生成的讲话信息、由讲话者识别部122生成的讲话者信息、由呼出/呼入信息取得部213取得的呼出/呼入信息、讲话历史存储部125中存储的讲话历史信息中紧前的项目、以及由话题判定部227判定出的话题,判定当前输入的用户的讲话是否是面向汽车导航的命令即语音命令。
图17是概略地示出命令判定部230的结构的框图。
命令判定部230具有讲话历史提取部131、上下文适合率估计部232、一般对话模型存储部135、判定执行部136、判定规则存储部137、讲话模式识别部238、特定对话模型存储部239和对话模型学习部240。
实施方式2中的命令判定部230的讲话历史提取部131、一般对话模型存储部135、判定执行部136和判定规则存储部137与实施方式1中的命令判定部130的讲话历史提取部131、一般对话模型存储部135、判定执行部136和判定规则存储部137相同。
讲话模式识别部238利用讲话历史存储部125中存储的讲话历史信息和从呼出/呼入信息取得部213得到的呼出/呼入信息,识别讲话组的模式。
例如,讲话模式识别部238根据讲话历史信息确定当前的讲话组,识别已确定的讲话组是以下的第1模式~第4模式中的哪个模式。
第1模式是仅驾驶员讲话的模式。例如,图18所示的讲话组例被识别为是第1模式。
第2模式是同乘者和驾驶员讲话的模式。例如,图19所示的讲话组例被识别为是第2模式。
第3模式是同乘者正在打电话时驾驶员讲话的模式。例如,图20所示的讲话组例被识别为是第3模式。
第4模式是其他模式。例如,图21所示的讲话组例是第4模式。
具体而言,讲话模式识别部238从讲话历史信息中提取过去一定时间内的项目,根据与取得的项目中包含的各讲话对应的讲话者,判定是否是仅驾驶员讲话。
如果讲话者仅是驾驶员,则讲话模式识别部238将当前的讲话组识别为第1模式。
此外,根据取得的项目中包含的讲话者信息,在存在多个讲话者的情况下,讲话模式识别部238使用Bluetooth或无线等将同乘者的便携终端与呼出/呼入信息取得部213连接,取得呼出/呼入信息。该情况下,讲话模式识别部238经由命令执行部150,利用语音或图像等向同乘者通知连接便携终端即可。
当同乘者在对应的时间正在进行通话的情况下,讲话模式识别部238将当前的讲话组识别为第3模式。
另一方面,当同乘者在对应的时间未进行通话的情况下,讲话模式识别部238将当前的讲话组识别为第2模式。
然后,在当前的讲话组不是第1模式~第3模式中的任何模式的情况下,讲话模式识别部238将当前的讲话组识别为第4模式。
另外,关于从讲话历史信息中提取项目的一定时间,通过实验来决定最佳值即可。
进而,讲话模式识别部238在识别为当前的讲话组是第1模式的情况下,判定为当前的用户的讲话是面向汽车导航的语音命令。
另一方面,讲话模式识别部238在识别为当前的讲话组是第4模式的情况下,判定为当前的用户的讲话不是面向汽车导航的语音命令。
特定对话模型存储部239存储特定对话模型信息,该特定对话模型信息表示在当前的讲话组被识别为同乘者正在打电话时驾驶员讲话的第3模式的情况下使用的对话模型即特定对话模型。
当同乘者正在打电话时,无法识别讲话对方的声音,因此,在利用一般对话模型信息时,可能进行误判定。因此,这种情况下,通过切换为特定对话模型信息,能够提高面向汽车导航的命令的判定精度。
上下文适合率估计部232利用一般对话模型存储部135中存储的一般对话模型信息或特定对话模型存储部239中存储的特定对话模型信息,估计当前的用户的讲话与从讲话历史存储部125提取出的项目中包含的讲话之间的上下文适合率。
图22是概略地示出上下文适合率估计部232的结构的框图。
上下文适合率估计部232具有上下文适合率计算部233和上下文适合率输出部134。
实施方式2中的上下文适合率估计部232的上下文适合率输出部134与实施方式1中的上下文适合率估计部132的上下文适合率输出部134相同。
在讲话模式识别部238将当前的讲话组识别为第2模式的情况下,上下文适合率计算部233参照一般对话模型存储部135中存储的一般对话模型信息,计算输入到语音取得部111的讲话与讲话历史存储部125中存储的讲话历史信息的紧前的项目中包含的讲话之间的上下文适合率。
此外,在讲话模式识别部238将当前的讲话组识别为第3模式的情况下,上下文适合率计算部233参照特定对话模型存储部239中存储的特定对话模型信息,计算输入到语音取得部111的讲话与讲话历史存储部125中存储的讲话历史信息的紧前的项目中包含的讲话之间的上下文适合率。
返回图17,对话模型学习部240根据一般的对话来学习一般对话模型,根据特定的对话来学习特定对话模型。
图23是概略地示出对话模型学习部240的结构的框图。
对话模型学习部240具有一般对话存储部141、学习数据生成部242、模型学习部243和特定对话存储部244。
实施方式2中的对话模型学习部240的一般对话存储部141与实施方式1中的对话模型学习部140的一般对话存储部141相同。
特定对话存储部244存储特定对话信息,该特定对话信息表示同乘者正在打电话时驾驶员讲话的情况下的对话。
学习数据生成部242根据一般对话存储部141中存储的一般对话信息对最后的讲话和紧前的讲话进行分离,将其变更为一般对话用的学习数据的格式。
此外,学习数据生成部242根据特定对话存储部244中存储的特定对话信息对最后的讲话和紧前的讲话进行分离,将其变更为特定对话用的学习数据的格式。
模型学习部243利用由学习数据生成部242生成的一般对话用的学习数据学习编码器解码器模型(Encoder Decoder Model),使一般对话模型存储部135存储将已学习到的模型表示为一般对话模型的一般对话模型信息。
此外,模型学习部243利用由学习数据生成部242生成的特定对话用的学习数据学习编码器解码器模型(Encoder Decoder Model),使特定对话模型存储部239存储将已学习到的模型表示为特定对话模型的特定对话模型信息。
图24是示出意图理解装置200进行的意图估计处理中的动作的流程图。
另外,对图24所示的流程图中包含的处理中的、与图7所示的实施方式1的流程图相同的处理标注与图7相同的标号并省略详细说明。
图24所示的步骤S10~S18的处理与图7所示的步骤S10~S18的处理相同。但是,在步骤S18为“否”的情况下,处理进入步骤S60。
在步骤S60中,话题判定部227判定与当前的用户的讲话有关的话题。例如,在当前的用户的讲话是“接着右转?”的情况下,话题判定部227判定为“道路引导”这样的话题。此外,在当前的用户的讲话是“请打开空调。”的情况下,话题判定部227判定为“空调操作”这样的话题。
接着,话题判定部227确认在步骤S60中判定出的话题是否存在于预先准备的话题列表中(S61)。在话题存在于话题列表中的情况下(S61:是),处理进入步骤S21,在话题不在话题列表中的情况下(S61:否),处理进入步骤S62。
在步骤S62中,命令判定部230判定意图估计结果是否是面向汽车导航的命令。关于步骤S62中的处理,使用图25进行详细说明。然后,处理进入步骤S20。
图24中的步骤S20和S21的处理与图7中的步骤S20和S21的处理相同。
如上所述,在实施方式2中,能够将很难判定是面向人与人之间的讲话还是面向汽车导航的讲话的讲话必定判定为是面向汽车导航的语音命令,能够抑制误判定为面向人与人之间的讲话。
图25是示出面向汽车导航的命令判定处理的动作的流程图。
另外,对图25所示的流程图中包含的处理中的、与图9所示的实施方式1的流程图相同的处理标注与图9相同的标号并省略详细说明。
首先,讲话历史提取部131从讲话历史存储部125中存储的讲话历史信息中提取紧前的项目(S70)。讲话历史提取部131例如以过去10秒钟的项目或过去10件项目等预定的基准提取项目。然后,讲话历史提取部131将提取出的项目与表示当前的用户的讲话的讲话信息一起交给讲话模式识别部238和上下文适合率估计部232。
接着,讲话模式识别部238将紧前的项目中包含的讲话和当前的用户的讲话合并起来,识别讲话组模式(S71)。
接着,讲话模式识别部238判定识别出的讲话组模式是否是仅驾驶员讲话的第1模式(S72)。在识别出的讲话组模式是第1模式的情况下(S72:是),处理进入步骤S73,在识别出的讲话组模式不是第1模式的情况下(S72:否),处理进入步骤S74。
在步骤S73中,成为仅驾驶员讲话的讲话组模式,因此,讲话模式识别部238判定为当前的用户的讲话是面向汽车导航的语音命令。
在步骤S74中,讲话模式识别部238判定识别出的讲话组模式是否是同乘者和驾驶员对话的第2模式。在识别出的讲话组模式是第2模式的情况下(S74:是),处理进入步骤S31。在识别出的讲话组模式不是第2模式的情况下(S74:否),处理进入步骤S75。
图25所示的步骤S31和步骤S32的处理与图9所示的步骤S31和步骤S32的处理相同。
在步骤S75中,讲话模式识别部238判定识别出的讲话组模式是否是同乘者正在打电话时驾驶员讲话的第3模式。在识别出的讲话组模式是第3模式的情况下(S75:是),处理进入步骤S76。在识别出的讲话组模式不是第3模式的情况下(S75:否),处理进入步骤S77。
在步骤S76中,上下文适合率估计部232使用特定对话模型存储部239中存储的特定对话模型信息,估计当前的用户的讲话与紧前的项目中包含的讲话之间的上下文适合率。另外,除了使用特定对话模型存储部239中存储的特定对话模型信息这点以外,按照图10所示的流程图进行这里的处理。然后,上下文适合率估计部232将估计结果交给判定执行部136,处理进入步骤S32。
在步骤S77中,成为第4讲话组模式,因此,讲话模式识别部238判定为当前的用户的讲话不是面向汽车导航的语音命令。
另外,除了使用特定对话存储部244中存储的特定对话信息这点以外,按照图13所示的流程图进行生成特定对话模型信息的处理。另外,省略详细说明。
如上所述,在实施方式2中,能够利用讲话模式识别部从预定的多个模式中识别包含最后的讲话即当前的用户的讲话的讲话组的模式,根据识别出的模式来改变判定当前的用户的讲话是否是语音命令的方法。
此外,在实施方式2中,利用话题判定部227判定当前的用户的讲话的话题。然后,在判定出的话题是预定的特定话题的情况下,能够判定为当前的用户的讲话是语音命令。因此,仅在判定出的话题不是预定的特定话题的情况下,命令判定部230进行判定当前的用户的讲话是否是语音命令的判定处理,由此,能够削减计算成本。
以上记载的实施方式1、2将汽车导航设为应用对象进行了说明,但是,应用对象不限于汽车导航。只要是利用语音来操作机械的装置即可,实施方式1、2能够应用于任何的装置。例如,实施方式1、2能够应用于智能扬声器和空调机等。
另外,在以上记载的实施方式1、2中,在意图理解装置100、200内具有对话模型学习部140、240,但是,对话模型学习部140、240的功能也可以由其他装置(计算机等)来执行,一般对话模型信息或特定对话模型信息经由未图示的网络或记录介质读入到意图理解装置100、200。这种情况下,作为图5和图6的硬件结构,追加用于与网络连接的NIC(NetworkInterface Card:网络接口卡)等通信装置或用于从记录介质读入信息的输入装置这样的接口,利用图1或图16的取得部110、210取得信息即可。
标号说明
100、200:意图理解装置;110、210:取得部;111:语音取得部;112:影像取得部;213:呼出/呼入信息取得部;120、220:处理部;121:语音识别部;122:讲话者识别部;123:意图估计部;124:讲话历史登记部;125:讲话历史存储部;126:乘车人数判定部;227:话题判定部;130、230:命令判定部;131:讲话历史提取部;132、232:上下文适合率估计部;133、233:上下文适合率计算部;134:上下文适合率输出部;135:一般对话模型存储部;136:判定执行部;137:判定规则存储部;238:讲话模式识别部;239:特定对话模型存储部;140、240:对话模型学习部;141:一般对话存储部;142、242:学习数据生成部;143、243:模型学习部;244:特定对话存储部;150:命令执行部。

Claims (11)

1.一种信息处理装置,其特征在于,所述信息处理装置具有:
语音取得部,其取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号;
语音识别部,其根据所述语音信号识别所述语音,将识别出的所述语音转换为字符串,确定所述多个讲话,并且确定与所述多个讲话中的各个讲话对应的时刻;
讲话者识别部,其从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者;
讲话历史存储部,其存储讲话历史信息,该讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者;
意图估计部,其估计所述多个讲话中的各个讲话的意图;
命令判定部,其进行判定处理,在该判定处理中,参照所述讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令;以及
命令执行部,其在所述命令判定部判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
2.根据权利要求1所述的信息处理装置,其特征在于,
所述命令判定部计算所述最后的讲话与所述一个或多个讲话之间的表示作为上下文的适合性程度的上下文适合率,在所述上下文适合率为预定的阈值以下的情况下,判定为所述最后的讲话与所述一个或多个讲话不是所述对话。
3.根据权利要求1所述的信息处理装置,其特征在于,
所述命令判定部计算所述最后的讲话与所述一个或多个讲话之间的表示作为上下文的适合性程度的上下文适合率,确定所述最后的讲话与所述最后的讲话的前一个讲话之间的时间越长则使所述上下文适合率越低的权重,在利用所述权重修正了所述上下文适合率后的值为预定的阈值以下的情况下,判定为所述最后的讲话与所述一个或多个讲话不是所述对话。
4.根据权利要求2或3所述的信息处理装置,其特征在于,
所述命令判定部通过参照根据多个用户进行的对话而学习到的对话模型,计算从所述一个或多个讲话到所述最后的讲话的概率作为所述上下文适合率。
5.根据权利要求1所述的信息处理装置,其特征在于,
所述信息处理装置还具有讲话模式识别部,该讲话模式识别部从预定的多个模式中识别包含所述最后的讲话的讲话组的模式,
根据识别出的所述模式,判定所述最后的讲话是否是所述语音命令的方法不同。
6.根据权利要求1~3中的任意一项所述的信息处理装置,其特征在于,
所述信息处理装置还具有:
影像取得部,其取得表示所述一个或多个用户所处的空间的影像的影像信号;以及
人数判定部,其根据所述影像判定所述一个或多个用户的数量,
在判定出的所述数量为2以上的情况下,所述命令判定部进行所述判定处理。
7.根据权利要求6所述的信息处理装置,其特征在于,
在判定出的所述数量为1的情况下,所述命令执行部也按照根据所述最后的讲话估计出的所述意图来控制所述对象。
8.根据权利要求1~3中的任意一项所述的信息处理装置,其特征在于,
所述信息处理装置还具有话题判定部,该话题判定部判定所述最后的讲话的话题,并对判定出的所述话题是否是预定的特定话题进行判定,
在判定出的所述话题不是所述预定的特定话题的情况下,所述命令判定部进行所述判定处理。
9.根据权利要求8所述的信息处理装置,其特征在于,
在判定出的所述话题是所述预定的特定话题的情况下,所述命令执行部也按照根据所述最后的讲话估计出的所述意图来控制所述对象。
10.一种信息处理方法,其特征在于,
取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号,
根据所述语音信号识别所述语音,
将识别出的所述语音转换为字符串,确定所述多个讲话,
确定与所述多个讲话中的各个讲话对应的时刻,
从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者,
估计所述多个讲话中的各个讲话的意图,
参照讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令,其中,所述讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者,
在判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
11.一种存储有程序的计算机能读取的存储介质,所述程序使计算机作为以下部分发挥功能:
语音取得部,其取得表示与一个或多个用户发出的多个讲话对应的语音的语音信号;
语音识别部,其根据所述语音信号识别所述语音,将识别出的所述语音转换为字符串,确定所述多个讲话,并且确定与所述多个讲话中的各个讲话对应的时刻;
讲话者识别部,其从所述一个或多个用户中识别发出所述多个讲话中的各个讲话的用户作为讲话者;
讲话历史存储部,其存储讲话历史信息,该讲话历史信息包含多个项目,所述多个项目分别示出所述多个讲话中的各个讲话、与所述多个讲话中的各个讲话对应的所述时刻、以及与所述多个讲话中的各个讲话对应的所述讲话者;
意图估计部,其估计所述多个讲话中的各个讲话的意图;
命令判定部,其进行判定处理,在该判定处理中,参照所述讲话历史信息,在所述多个讲话中的最后的讲话与所述多个讲话中的所述最后的讲话紧前的一个或多个讲话不是对话的情况下,判定为所述最后的讲话是用于控制对象的语音命令;以及
命令执行部,其在所述命令判定部判定为所述最后的讲话是所述语音命令的情况下,按照根据所述最后的讲话估计出的所述意图来控制所述对象。
CN201880096683.1A 2018-08-31 2018-08-31 信息处理装置、信息处理方法和存储介质 Active CN112585674B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032379 WO2020044543A1 (ja) 2018-08-31 2018-08-31 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
CN112585674A CN112585674A (zh) 2021-03-30
CN112585674B true CN112585674B (zh) 2024-08-02

Family

ID=69644057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880096683.1A Active CN112585674B (zh) 2018-08-31 2018-08-31 信息处理装置、信息处理方法和存储介质

Country Status (5)

Country Link
US (1) US20210183362A1 (zh)
JP (1) JP6797338B2 (zh)
CN (1) CN112585674B (zh)
DE (1) DE112018007847B4 (zh)
WO (1) WO2020044543A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质
WO2022172393A1 (ja) * 2021-02-12 2022-08-18 三菱電機株式会社 音声認識装置および音声認識方法
WO2022239142A1 (ja) * 2021-05-12 2022-11-17 三菱電機株式会社 音声認識装置及び音声認識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2045798B1 (en) * 2007-03-29 2014-12-03 Panasonic Intellectual Property Corporation of America Keyword extracting device
JP2008257566A (ja) * 2007-04-06 2008-10-23 Kyocera Mita Corp 電子機器
US9786268B1 (en) * 2010-06-14 2017-10-10 Open Invention Network Llc Media files in voice-based social media
JP6236805B2 (ja) * 2013-03-05 2017-11-29 日本電気株式会社 発話コマンド認識システム
JP5929811B2 (ja) * 2013-03-27 2016-06-08 ブラザー工業株式会社 画像表示装置および画像表示プログラム
JP2014232289A (ja) * 2013-05-30 2014-12-11 三菱電機株式会社 誘導音声調整装置、誘導音声調整方法および誘導音声調整プログラム
US20150066513A1 (en) * 2013-08-29 2015-03-05 Ciinow, Inc. Mechanism for performing speech-based commands in a system for remote content delivery
JP2015099253A (ja) * 2013-11-19 2015-05-28 東芝テック株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8938394B1 (en) * 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
CN106796786B (zh) * 2014-09-30 2021-03-02 三菱电机株式会社 语音识别系统
US20170199867A1 (en) * 2014-10-30 2017-07-13 Mitsubishi Electric Corporation Dialogue control system and dialogue control method
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
JP2017009825A (ja) * 2015-06-23 2017-01-12 トヨタ自動車株式会社 会話状況分析装置および会話状況分析方法
US20180130467A1 (en) * 2015-09-09 2018-05-10 Mitsubishi Electric Corporation In-vehicle speech recognition device and in-vehicle equipment
JP2017090611A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
KR102437833B1 (ko) * 2017-06-13 2022-08-31 현대자동차주식회사 음성 명령 기반 작업 선택 장치, 차량, 음성 명령 기반 작업 선택 방법
US10943606B2 (en) * 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置

Also Published As

Publication number Publication date
JPWO2020044543A1 (ja) 2020-12-17
US20210183362A1 (en) 2021-06-17
DE112018007847B4 (de) 2022-06-30
JP6797338B2 (ja) 2020-12-09
CN112585674A (zh) 2021-03-30
DE112018007847T5 (de) 2021-04-15
WO2020044543A1 (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
CN112585674B (zh) 信息处理装置、信息处理方法和存储介质
US9159319B1 (en) Keyword spotting with competitor models
US8249867B2 (en) Microphone array based speech recognition system and target speech extracting method of the system
EP2048656B1 (en) Speaker recognition
CN105529026B (zh) 语音识别装置和语音识别方法
US20190355352A1 (en) Voice and conversation recognition system
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
EP1022725B1 (en) Selection of acoustic models using speaker verification
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US11626104B2 (en) User speech profile management
Këpuska et al. A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation
Chao et al. Speaker-targeted audio-visual models for speech recognition in cocktail-party environments
WO2005004111A1 (en) Method for controlling a speech dialog system and speech dialog system
JP6985221B2 (ja) 音声認識装置及び音声認識方法
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
KR20220130739A (ko) 스피치 인식
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
CN109065026B (zh) 一种录音控制方法及装置
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP7349072B2 (ja) エレベータ用の音声認識システム
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
US20230395078A1 (en) Emotion-aware voice assistant
JP4919282B2 (ja) 不明瞭音声コマンド認識装置および不明瞭音声コマンド認識処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant