JP6797338B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP6797338B2
JP6797338B2 JP2020539991A JP2020539991A JP6797338B2 JP 6797338 B2 JP6797338 B2 JP 6797338B2 JP 2020539991 A JP2020539991 A JP 2020539991A JP 2020539991 A JP2020539991 A JP 2020539991A JP 6797338 B2 JP6797338 B2 JP 6797338B2
Authority
JP
Japan
Prior art keywords
utterance
unit
utterances
voice
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020539991A
Other languages
English (en)
Other versions
JPWO2020044543A1 (ja
Inventor
文 王
文 王
悠介 小路
悠介 小路
岡登 洋平
洋平 岡登
相川 勇之
勇之 相川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6797338B2 publication Critical patent/JP6797338B2/ja
Publication of JPWO2020044543A1 publication Critical patent/JPWO2020044543A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、カーナビ(automotive navigation system)を音声認識により操作する場合、運転者が明示的に発話スイッチを押下する等の操作を行って、音声認識開始を指示することが主流であった。しかし、このような操作を、音声認識を利用するたびに行うことは煩わしく、明示的に音声認識開始を指示することなく音声認識を利用できるようにすることが望ましい。
特許文献1には、運転者を音声命令入力対象者として、音源方向及び画像を使って運転者による発声の有無を判定する第1の判定手段と、同乗者の発声の有無を判定する第2の判定手段とを設けて、運転者が発声したことを利用して、音声命令認識開始を判断する音声認識装置が記載されている。
特許文献1に記載されている音声認識装置では、運転者による発声直後に同乗者が発声していないことを音声命令認識の開始条件とすることで、車両内に同乗者がいる場合でも、別の人間に話し掛けているのか、音声入力のためにマイクロフォンに向かって声を発しているのか、を区別することが可能となる。
特開2007−219207号公報
しかしながら、特許文献1に記載されている音声認識装置では、助手席の同乗者が電話している場合、又は、他の同乗者と話している場合に、運転手がカーナビに話かけても、運転手の音声を認識しないので、運転手の音声命令を実行できない問題があった。
具体的には、以下の、第1の場合及び第2の場合に、特許文献1に記載されている音声認識装置は、運転手の音声命令を実行できない。
第1の場合:助手席の同乗者が後部座席同乗者と会話していて、運転手が命令を発声している。
第2の場合:助手席の同乗者が電話しており、運転手が命令を発声している。
そこで、本発明の1又は複数の態様は、複数のユーザがいる場合でも、あるユーザによる発話が、音声命令を入力するための発話かどうかを判定できるようにすることを目的とする。
本発明の1態様に係る情報処理装置は、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、前記複数の発話の各々の意図を推定する意図推定部と、前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部と、を備えることを特徴とする。
本発明の1態様に係る情報処理方法は、音声取得部が、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得し、音声認識部が、前記音声信号から前記音声を認識し、前記音声認識部が、前記認識された音声を文字列に変換して、前記複数の発話を特定し、前記音声認識部が、前記複数の発話の各々に対応する時刻を特定し、話者認識部が、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識し、意図推定部が、前記複数の発話の各々の意図を推定し、命令判定部が、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定し、命令実行部が、前記命令判定部が前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御することを特徴とする。
本発明の1態様に係るプログラムは、コンピュータを、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、前記複数の発話の各々の意図を推定する意図推定部と、前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部として機能させることを特徴とする。
本発明の1又は複数の態様によれば、複数のユーザがいる場合でも、あるユーザによる発話が、音声命令を入力するための発話かどうかを判定することができる。
実施の形態1に係る意図理解装置の構成を概略的に示すブロック図である。 実施の形態1における命令判定部の構成を概略的に示すブロック図である。 実施の形態1における文脈適合率推定部の構成を概略的に示すブロック図である。 実施の形態1における対話モデル学習部の構成を概略的に示すブロック図である。 意図理解装置のハードウェア構成の第1例を概略的に示すブロック図である。 意図理解装置のハードウェア構成の第2例を概略的に示すブロック図である。 実施の形態1における意図理解装置による意図推定処理での動作を示すフローチャートである。 発話履歴情報の一例を示す概略図である。 実施の形態1におけるカーナビ向け命令判定処理の動作を示すフローチャートである。 文脈適合率推定処理の動作を示すフローチャートである。 文脈適合率の第1の計算例を示す概略図である。 文脈適合率の第2の計算例を示す概略図である。 対話モデルを学習する処理の動作を示すフローチャートである。 対話の特定例を示す概略図である。 学習データの生成例を示す概略図である。 実施の形態2に係る意図理解装置の構成を概略的に示すブロック図である。 実施の形態2における命令判定部の構成を概略的に示すブロック図である。 第1のパターンであると識別される発話群例を示す概略図である。 第2のパターンであると識別される発話群例を示す概略図である。 第3のパターンであると識別される発話群例を示す概略図である。 第4のパターンであると識別される発話群例を示す概略図である。 実施の形態2における文脈適合率推定部の構成を概略的に示すブロック図である。 実施の形態2における対話モデル学習部の構成を概略的に示すブロック図である。 実施の形態2に係る意図理解装置による意図推定処理での動作を示すフローチャートである。 実施の形態2におけるカーナビ向け命令判定処理の動作を示すフローチャートである。
以下の実施の形態では、情報処理装置としての意図理解装置をカーナビに適用した例を説明する。
実施の形態1.
図1は、実施の形態1に係る意図理解装置100の構成を概略的に示すブロック図である。
意図理解装置100は、取得部110と、処理部120と、命令実行部150とを備える。
取得部110は、音声及び映像を取得するインタフェースである。
取得部110は、音声取得部111と、映像取得部112とを備える。
音声取得部111は、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する。例えば、音声取得部111は、図示されていないマイク等の音声入力装置から音声信号を取得する。
映像取得部112は、1又は複数のユーザがいる空間の映像を示す映像信号を取得する。例えば、映像取得部112は、図示されていないカメラ等の映像入力装置から、撮像された映像を示す映像信号を取得する。ここでは、映像取得部112は、意図理解装置100が搭載されている車両(図示せず)の車内の映像である車内映像を示す映像信号を取得する。
処理部120は、取得部110からの音声信号及び映像信号を用いて、ユーザからの発話が、対象であるカーナビを制御するための音声命令であるか否かを判定する。
処理部120は、音声認識部121と、話者認識部122と、意図推定部123と、発話履歴登録部124と、発話履歴記憶部125と、乗車人数判定部126と、命令判定部130とを備える。
音声認識部121は、音声取得部111で取得された音声信号で示される音声を認識し、認識された音声を文字列に変換して、ユーザからの発話を特定する。そして、音声認識部121は、特定された発話を示す発話情報を生成する。
また、音声認識部121は、特定された発話に対応する時刻、例えば、その発話に対応する音声を認識した時刻を特定する。そして、音声認識部121は、特定された時刻を示す時刻情報を生成する。
なお、音声認識部121における音声認識は、公知の技術を利用するものとする。例えば、鹿野 清宏、伊藤 克亘、河原 達也、武田 一哉、山本 幹雄 編著、「IT Text 音声認識システム」、株式会社オーム社、2001年、3章(43ページ〜50ページ)に記載された技術を利用することで音声認識の処理は実現可能である。
具体的には、音素毎に学習された時系列の統計モデルである隠れマルコフモデル(Hidden Markov Model:HMM)を用いて、観測された音声特徴量の系列を最も高い確率で出力することで、音声を認識すればよい。
話者認識部122は、音声取得部111で取得された音声信号で示される音声から、発話を発したユーザを話者として認識する。そして、話者認識部122は、認識された話者を示す話者情報を生成する。
なお、話者認識部122における話者認識処理は、公知の技術を利用するものとする。例えば、古井 貞熙 著、「音声情報処理」、森北出版株式会社、1998年、6章(133ページ〜146ページ)に記載された技術を利用することで話者認識の処理は実現可能である。
具体的には、予め複数の話者の音声の標準パターンを登録しておいて、登録された標準パターンの内、最も類似度(尤度)の高い話者を選択すればよい。
意図推定部123は、音声認識部121で生成された発話情報で示される発話から、ユーザの意図を推定する。
ここで、意図推定の手法は、テキスト分類に関する公知の技術を利用するものとする。例えば、Pang-ning Tan、Michael Steinbach、Vipin Kumar 著、「Introduction To Data Mining」、Person Education, Inc、2006年、5章(256ページ〜276ページ)に記載されたテキスト分類技術を利用することで、意図推定処理は実現可能である。
具体的には、SVM(Support Vector Machine)を利用して、学習データから複数のクラス(意図)を分類する線を得て、音声認識部121で生成された発話情報で示される発話を、いずれかのクラス(意図)へ分類すればよい。
発話履歴登録部124は、音声認識部121で生成された発話情報で示される発話、その発話情報に対応する時刻情報で示される時刻、及び、その発話情報に対応する話者情報で示される話者を1つの項目として、発話履歴記憶部125に記憶されている発話履歴情報に登録する。
発話履歴記憶部125は、複数の項目を含む発話履歴情報を記憶する。複数の項目の各々は、発話と、その発話に対応する時刻と、その発話に対応する話者とを示す。
乗車人数判定部126は、映像取得部112からの映像信号で示される車内映像を用いて、乗車人数を判定する人数判定部である。
なお、乗車人数判定部126における人数判定は、顔認識に関する公知の技術を利用するものとする。例えば、酒井 幸市 著、「画像処理とパターン認識入門」、森北出版株式会社、2006年、7章(119ページ〜122ページ)に記載された顔認識技術を利用することで乗車人数判定の処理は実現可能である。
具体的には、顔画像のパターンマッチングにより、乗車している人の顔を認識することで、乗車人数を判定することができる。
命令判定部130は、音声認識部121で生成された発話情報と、話者認識部122で生成された話者情報と、発話履歴記憶部110に記憶されている発話履歴情報における直前の項目とを利用して、現在入力されたユーザの発話が、カーナビ向け音声命令かどうかを判定する。
具体的には、命令判定部130は、発話履歴情報を参照して、複数の発話の内の最後の発話、言い換えると、発話情報で示される発話と、複数の発話の内の、最後の発話の直前の1又は複数の発話とが対話であるか否かを判定する。そして、命令判定部130は、対話ではないと判定した場合に、最後の発話を、対象を制御するための音声命令であると判定する。
図2は、命令判定部130の構成を概略的に示すブロック図である。
命令判定部130は、発話履歴抽出部131と、文脈適合率推定部132と、一般対話モデル記憶部135と、判定実行部136と、判定ルール記憶部137と、対話モデル学習部140とを備える。
発話履歴抽出部131は、発話履歴記憶部125に記憶されている発話履歴情報から、最後の発話の直前の1又は複数の項目を抽出する。
文脈適合率推定部132は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を利用して、最後の発話である現在のユーザの発話と、発話履歴記憶部125から抽出された項目に含まれている発話との文脈適合率を推定する。文脈適合率は、それらの発話の文脈としての適合性の度合いを示す。このため、文脈適合率が高い場合には、対話が行われていると判定することができ、文脈適合率が低い場合には、対話が行われていないと判定することができる。
図3は、文脈適合率推定部132の構成を概略的に示すブロック図である。
文脈適合率推定部132は、文脈適合率計算部133と、文脈適合率出力部134とを備える。
文脈適合率計算部133は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を参照して、音声取得部111に入力された発話と、発話履歴抽出部131に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
なお、文脈適合率計算部133における文脈適合率の計算は、Ilya Sutskever、Oriol Vinyals、Quoc V.le 著、「Sequence to Sequence Learning with Neural Betworks」 (Advances in neural information processing systems)、2014年に記載されているEncoder Decoder Model技術で実現できる。
具体的には、発話履歴情報からの直前の項目に含まれている発話を入力文Xとし、音声取得部111に入力された発話を出力文Yとして、入力文Xが出力文Yになる確率P(Y|X)を、学習された一般対話モデル情報を用いて、LSTM−LM(Long short −Term Memory−Language Model)の公式に従って計算することで、その確率Pを文脈適合率とすればよい。
言い換えると、文脈適合率計算部133は、直前の発話から、現在のユーザの発話に至る確率を文脈適合率として計算する。
文脈適合率出力部134は、文脈適合率計算部133により算出された確率Pを、文脈適合率として、判定実行部136に与える。
図2に戻り、一般対話モデル記憶部135は、複数のユーザが行う一般の対話で学習された対話モデルである一般対話モデルを示す一般対話モデル情報を記憶する。
判定実行部136は、判定ルール記憶部137に記憶されている判定ルールに従って、現在のユーザの発話がカーナビ向けの命令かどうかを判定する。
判定ルール記憶部137は、現在のユーザの発話がカーナビ向けの命令かどうかを判定するための判定ルールを記憶するデータベースである。
対話モデル学習部140は、一般の対話から対話モデルを学習する。
図4は、対話モデル学習部140の構成を概略的に示すブロック図である。
対話モデル学習部140は、一般対話記憶部141と、学習データ生成部142と、モデル学習部143とを備える。
一般対話記憶部141は、複数のユーザが一般的に行う対話を示す一般対話情報を記憶する。
学習データ生成部142は、一般対話記憶部141に記憶されている一般対話情報から、最後の発話と、直前の発話とを分離し、学習データのフォーマットに変更する。
モデル学習部143は、学習データ生成部142によって生成された学習データを利用して、Encoder Decoder Modelを学習し、学習されたモデルを一般対話モデルとして示す一般対話モデル情報を、一般対話モデル記憶部135に記憶させる。なお、モデル学習部143での処理については、上述の「Sequence to Sequence Learning with Neural Betworks」に記載されている手法が用いられればよい。
図1に戻り、命令実行部150は、音声命令に対する動作を実行する。具体的には、命令実行部150は、命令判定部130が、最後の発話を音声命令であると判定した場合に、その最後の発話から推定された意図に従って、対象を制御する。
図5は、意図理解装置100のハードウェア構成の第1例を概略的に示すブロック図である。
意図理解装置100は、例えば、CPU(Central Processing Unit)等のプロセッサ160と、メモリ161と、マイク、キーボード及びカメラ等のセンサインタフェース(センサI/F)162と、記憶装置としてのハードディスク163と、図示してはいないスピーカ(音声出力装置)又はディスプレイ(表示装置)に映像、音声又は指示を出力するための出力インタフェース(出力I/F)164とを備えている。
具体的には、取得部110は、プロセッサ160がセンサI/F162を利用することにより実現することができる。処理部120は、ハードディスク163に記憶されているプログラム及びデータを、プロセッサ160がメモリ161に読み出して実行及び利用することにより実現することができる。命令実行部150は、ハードディスク163に記憶されているプログラム及びデータを、プロセッサ160がメモリ161に読み出して実行及び利用するとともに、必要に応じて出力I/F164から他の機器に映像、音声又は指示を出力することにより実現することができる。
このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
図6は、意図理解装置100のハードウェア構成の第2例を概略的に示すブロック図である。
図5に示されているプロセッサ160及びメモリ161の代わりに、図6に示されているように、処理回路165が備えられていてもよい。
処理回路165は、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等により構成することができる。
図7は、意図理解装置100による意図推定処理での動作を示すフローチャートである。
まず、音声取得部111は、図示しないマイクから、ユーザが発話した音声を示す音声信号を取得する(S10)。音声取得部111は、音声信号を処理部120に渡す。
次に、話者認識部122は、音声信号から、話者認識処理を行う(S11)。話者認識部122は、認識した話者を示す話者情報を発話履歴登録部124及び命令判定部130に渡す。
次に、音声認識部121は、音声信号で示される音声を認識し、認識した音声を文字列に変換することで、変換された文字列からなる発話を示す発話情報と、そのような音声認識を行った時刻を示す時刻情報とを生成する(S12)。音声認識部121は、その発話情報及び時刻情報を、意図推定部123、発話履歴登録部124及び命令判定部130に渡す。なお、音声認識部121で最後に生成された発話情報で示される発話を、現在のユーザの発話とする。
次に、発話履歴登録部124は、発話情報で示される発話と、その発話情報に対応する時刻情報で示される時刻と、その発話情報に対応する話者情報で示される話者とを示す項目を、発話履歴記憶部125に記憶されている発話履歴情報に登録する(S13)。
図8は、発話履歴情報の一例を示す概略図である。
図8に示されている発話履歴情報170は、複数の行を備えており、複数の行の各々が、発話情報で示される発話と、その発話情報に対応する時刻情報で示される時刻と、その発話情報に対応する話者情報で示される話者とを示す1つの項目になっている。
例えば、図8に示されている発話履歴情報170は、二人の話者が話した内容となっている。
図7に戻り、次に、意図推定部123は、音声認識の結果である発話情報から、ユーザの意図を推定する(S14)。
意図推定部123における意図推定は、テキスト分類問題となる。意図を予め定義しておき、意図推定部123は、現在のユーザの発話を、いずれかの意図へ分類する。
例えば、「エアコンをつけて」という現在のユーザの発話は、空調機器を起動することを意味する「TURN_ON_AIR_CONDITIONER」という意図に分類される。
また、「今日は雨だね」という現在のユーザの発話は、意図が不明であることを示す「UNKNOWN」という意図へ分類される。
即ち、意図推定部123は、現在のユーザの発話を、予め定められた特定の意図に分類できる場合には、その意図に分類し、予め定められた特定の意図に分類できない場合には、意図が不明であることを示す「UNKNOWN」に分類する。
次に、意図推定部123は、意図推定結果が「UNKNOWN」か否かを判定する(S15)。意図推定結果がUNKNOWNではない場合(S15でYes)には、意図推定結果を命令判定部130の命令実行部150へ渡し、処理はステップS16に進む。意図推定結果が「UNKNOWN」である場合(S15でNo)には、処理は終了する。
ステップS16では、映像取得部112は、カメラから車内映像を示す映像信号を取得し、その映像信号を乗車人数判定部126に渡す。
次に、乗車人数判定部126は、車内映像から乗車人数を判定し、判定された乗車人数を示す乗車人数情報を命令判定部130に渡す(S17)。
次に、命令判定部130は、乗車人数情報で示される乗車人数が1人であるか否かを判定する(S18)。乗車人数が1人である場合(S18でYes)には、処理はステップS21に進み、乗車人数が1人ではない場合、言い換えると、乗車人数が複数である場合(S18でNo)には、処理はステップS19に進む。
ステップS19では、命令判定部130は、意図推定結果がカーナビ向け命令である音声命令か否かを判定する。ステップS19での処理については、図9を用いて詳細に説明する。
そして、意図推定結果が音声命令である場合(S20でYes)には、処理はステップS21に進み、意図推定結果が音声命令ではない場合(S20でNo)には、処理は終了する。
ステップS21では、命令判定部130は、意図推定結果を命令実行部150に渡し、
命令実行部150は、その意図推定結果に対する動作を実行する。
例えば、意図推定結果が「TURN_ON_AIR_CONDITIONER」である場合、命令実行部150は、指示を出力することで、車内の空調機器を起動させる。
図9は、カーナビ向け命令判定処理の動作を示すフローチャートである。
まず、発話履歴抽出部131は、発話履歴記憶部125に記憶されている発話履歴情報から直前の項目を抽出する(S30)。発話履歴抽出部131は、例えば、過去10秒間の項目、又は、過去10件の項目等、予め定められた基準で項目を抽出することとする。そして、発話履歴抽出部131は、現在のユーザの発話を示す発話情報とともに、抽出された項目を文脈適合率推定部132に渡す。
次に、文脈適合率推定部132は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との文脈適合率を推定する(S31)。なお、ここでの処理の詳細は、図10を用いて詳細に説明する。文脈適合率推定部132は、推定結果を判定実行部136に渡す。
次に、判定実行部136は、判定ルール記憶部137に記憶されている判定ルール情報で示される判定ルールに従って、意図推定結果を実行するかどうかを判定する(S32)。
例えば、判定ルール1として、「文脈適合率が閾値0.5よりも大きい場合、ナビ向けコマンドではないと判定」する判定ルールが使用される。この判定ルールによれば、文脈適合率が閾値である0.5以下の場合には、判定実行部136は、意図推定結果を音声命令であるナビ向けコマンドと判定し、文脈適合率が0.5よりも大きい場合には、判定実行部136は、意図推定結果をナビ向けコマンドではないと判定する。
また、判定ルール2として、直前の発話からの経過時間を利用して、文脈適合率に重みを付けた重み付き文脈適合率を算出するルールが使用されてもよい。判定実行部136は、この重み付き文脈適合率を用いて、判定ルール1の判定を行うことで、現在のユーザの発話までの経過時間が長いほど文脈適合率を低くすることができる。
なお、判定ルール2については、必ずしも使用しなくてもよい。
判定ルール2を使用しない場合には、判定ルール1により、文脈適合率を閾値と比較することで、判定を行うことができる。
一方、判定ルール2を使用する場合には、算出された文脈適合率を重みにより修正した値を閾値と比較することで、判定を行うことができる。
図10は、文脈適合率推定処理の動作を示すフローチャートである。
まず、文脈適合率計算部133は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との適合性の度合いであるの確率を、文脈適合率として計算する(S40)。
例えば、図11に示されている例1のように、現在のユーザの発話が「気温が下がってほしいな」である場合、直前の発話とのつながりが強いので、文脈適合率は、0.9と計算される。
一方、図12に示されている例2のように、現在のユーザの発話が「次は右だっけ?」である場合、直前の発話とのつながりが弱いので、文脈適合率は、0.1と計算される。
そして、文脈適合率計算部133は、算出した文脈適合率を、判定実行部136に渡す(S41)。
例えば、図11の例1に示されているように、文脈適合率が0.9である場合、判定ルール1では、意図推定結果はカーナビ向け命令ではないと判定される。
一方、図11の例2に示されているように、文脈適合率が0.1である場合、判定ルール1では、意図推定結果はカーナビ向け命令と判定される。
なお、図11の例1において、現在のユーザの発話までの経過時間が4秒である場合、図11の例1に、判定ルール2を適用することで、重み付き文脈適合率は、1/4×0.9=0.225になる。この場合、判定ルール1により、判定結果はカーナビ向け命令となる。
図13は、対話モデルを学習する処理の動作を示すフローチャートである。
まず、学習データ生成部142は、一般対話記憶部141に記憶されている一般対話情報を抽出し、対話毎に、最後の発話と、他の発話とを分離して、学習データを生成する(S50)。
例えば、学習データ生成部142は、図14に示されているように、一般対話記憶部141に記憶されている一般対話情報から、1つの対話を特定する。
そして、学習データ生成部142は、例えば、図15に示されているように、1つの対話の最後の発話を現在のユーザの発話とし、他の発話を直前の発話として、学習データを生成する。
学習データ生成部142は、生成された学習データをモデル学習部143に渡す。
図13に戻り、次に、モデル学習部143は、学習データによって、深層学習手法により、Encoder Decoder Modelを作成する(S51)。そして、モデル学習部143は、作成されたEncoder Decoder Modelを示す一般モデル情報を一般対話モデル記憶部135に記憶させる。
以上の実施の形態では、モデル学習部143での処理について、Encoder Decoder Modelを学習手法として説明したが、他の手法を利用することもできる。例えば、SVM等の教師あり機械学習手法を利用することもできる。
しかし、SVM等の一般的な教師あり機械学習手法を利用する場合、学習データに文脈に合致しているか合致していないかというラベルを付ける作業が必要であるため、学習データの作成コストが高くなる傾向がある。Encoder Decoder Modelの場合、学習データにラベルがいらない点で優れている。
実施の形態2.
図16は、実施の形態2に係る情報処理装置としての意図理解装置200の構成を概略的に示すブロック図である。
意図理解装置200は、取得部210と、処理部220と、命令実行部150とを備える。
実施の形態2に係る意図理解装置200の命令実行部150は、実施の形態1に係る意図理解装置100の命令実行部150と同様である。
取得部210は、音声、映像及び発着信履歴を取得するインタフェースである。
取得部210は、音声取得部111と、映像取得部112と、発着信情報取得部213とを備える。
実施の形態2における取得部210の音声取得部111及び映像取得部112は、実施の形態1における取得部110の音声取得部111及び映像取得部112と同様である。
発着信情報取得部213は、ユーザが有する携帯端末から、通話の発着信の履歴を示す発着信情報を取得する。発着信情報取得部213は、発着信情報を処理部220に渡す。
処理部220は、取得部210からの音声信号、映像信号及び発着信情報を用いて、ユーザの音声が、対象であるカーナビを制御するための音声命令であるか否かを判定する。
処理部220は、音声認識部121と、話者認識部122と、意図推定部123と、発話履歴登録部124と、発話履歴記憶部125と、乗車人数判定部126と、トピック判定部227と、命令判定部230とを備える。
実施の形態2における処理部220の音声認識部121、話者認識部122、意図推定部123、発話履歴登録部124、発話履歴記憶部125及び乗車人数判定部126は、実施の形態1における処理部120の音声認識部121、話者認識部122、意図推定部123、発話履歴登録部124、発話履歴記憶部125及び乗車人数判定部126と同様である。
トピック判定部227は、音声認識部121の音声認識結果である発話情報で示される発話に関するトピックを判定する。
ここでのトピックの判定は、SVM等の教師あり機械学習手法を利用することで実現可能である。
そして、トピック判定部227は、判定されたトピックが、予め定められたトピックリストに載っている特定のトピックである場合には、現在のユーザの発話をカーナビ向け命令としての音声命令であると判定する。
予め定められたトピックリストに載っている特定のトピックは、例えば、人間同士に向けた発話か、カーナビに向けた発話かの判定が難しい曖昧性のある発話に関するトピックであるものとする。例えば、その特定のトピックとしては、「道案内」又は「エアコン操作」といったトピックがある。
そして、トピック判定部227が、例えば、現在のユーザの発話である「あと何分で着くの?」を「道案内」というトピックに判定した場合、判定されたトピック「道案内」は予め定められたトピックリストに載っているので、トピック判定部227は、それをカーナビ向けの命令と判定する。
上述のように構成することで、人間同士に向けた発話かカーナビに向けた発話か判定が難しい発話を必ずカーナビに向けた命令と判定することができ、誤って人間同士に向けた発話と判定することを抑制できる。
命令判定部230は、音声認識部121で生成された発話情報と、話者認識部122で生成された話者情報と、発着信情報取得部213で取得された発着信情報と、発話履歴記憶部110に記憶されている発話履歴情報における直前の項目と、トピック判定部227で判定されたトピックとを利用して、現在入力されたユーザの発話が、カーナビ向けの命令である音声命令かどうかを判定する。
図17は、命令判定部230の構成を概略的に示すブロック図である。
命令判定部230は、発話履歴抽出部131と、文脈適合率推定部232と、一般対話モデル記憶部135と、判定実行部136と、判定ルール記憶部137と、発話パターン識別部238と、特定対話モデル記憶部239と、対話モデル学習部240とを備える。
実施の形態2における命令判定部230の発話履歴抽出部131、一般対話モデル記憶部135、判定実行部136及び判定ルール記憶部137は、実施の形態1における命令判定部130の発話履歴抽出部131、一般対話モデル記憶部135、判定実行部136及び判定ルール記憶部137と同様である。
発話パターン識別部238は、発話履歴記憶部125に記憶されている発話履歴情報及び発着信情報取得部213から得られる発着信情報を利用して、発話群のパターンを識別する。
例えば、発話パターン識別部238は、発話履歴情報から現在の発話群を特定し、特定された発話群を、以下の第1のパターン〜第4のパターンの何れであるかを識別する。
第1のパターンは、ドライバのみが話しているパターンである。例えば、図18に示されている発話群例は、第1のパターンであると識別される。
第2のパターンは、同乗者とドライバが発話しているパターン。例えば、図19に示されている発話群例は、第2のパターンであると識別される。
第3のパターンは、同乗者が電話で話している時に、ドライバが話しているパターンである。例えば、図20に示されている発話群例は、第3のパターンであると識別される。
第4のパターンは、その他のパターンである。例えば、図21に示されている発話群例は、第4のパターンである。
具体的には、発話パターン識別部238は、発話履歴情報から、過去一定時間内の項目を抽出して、取得された項目に含まれている各発話に対応する話者から、ドライバのみが話しているかどうかを判定する。
もし話者がドライバのみである場合には、発話パターン識別部238は、現在の発話群を、第1のパターンと識別する。
また、取得された項目に含まれている話者情報から、複数の話者がある場合、発話パターン識別部238は、同乗者の携帯端末をBluetooth又は無線等を用いて、発着信情報取得部213に接続してもらい、発着信情報を取得する。この場合、発話パターン識別部238は、命令実行部150を介して、音声又は画像等で同乗者に携帯端末を接続するように通知すればよい。
対応する時間に同乗者が通話を行っている場合には、発話パターン識別部238は、現在の発話群を第3のパターンと識別する。
一方、対応する時間に同乗者が通話を行っていない場合には、発話パターン識別部238は、現在の発話群を第2のパターンと識別する。
そして、現在の発話群が第1のパターン〜第3のパターンの何れでもない場合には、発話パターン識別部238は、現在の発話群を第4のパターンと識別する。
なお、発話履歴情報から項目を抽出する一定時間については、実験により、最適値が決められればよい。
さらに、発話パターン識別部238は、現在の発話群が第1のパターンであると識別した場合には、現在のユーザの発話をカーナビ向けの音声命令であると判定する。
一方、発話パターン識別部238は、現在の発話群が第4のパターンであると識別した場合には、現在のユーザの発話をカーナビ向けの音声命令ではないと判定する。
特定対話モデル記憶部239は、現在の発話群が、同乗者が電話で話している時に、ドライバが話している第3のパターンと識別された場合に使用される対話モデルである特定対話モデルを示す特定対話モデル情報を記憶する。
同乗者が電話をしている時、話し相手の声を認識することができないため、一般対話モデル情報を利用すると誤判定するおそれがある。従って、このような場合に、特定対話モデル情報に切り替えることによって、カーナビ向け命令の判定精度を向上させることができる。
文脈適合率推定部232は、一般対話モデル記憶部135に記憶されている一般対話モデル情報又は特定対話モデル記憶部239に記憶されている特定対話モデル情報を利用して、現在のユーザの発話と、発話履歴記憶部125から抽出された項目に含まれている発話との文脈適合率を推定する。
図22は、文脈適合率推定部232の構成を概略的に示すブロック図である。
文脈適合率推定部232は、文脈適合率計算部233と、文脈適合率出力部134とを備える。
実施の形態2における文脈適合率推定部232の文脈適合率出力部134は、実施の形態1における文脈適合率推定部132の文脈適合率出力部134と同様である。
文脈適合率計算部233は、発話パターン識別部238が現在の発話群を第2のパターンと識別した場合には、一般対話モデル記憶部135に記憶されている一般対話モデル情報を参照して、音声取得部111に入力された発話と、発話履歴抽出部131に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
また、文脈適合率計算部233は、発話パターン識別部238が現在の発話群を第3のパターンと識別した場合には、特定対話モデル記憶部239に記憶されている特定対話モデル情報を参照して、音声取得部111に入力された発話と、発話履歴抽出部131に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
図17に戻り、対話モデル学習部240は、一般の対話から一般対話モデルを学習し、特定の対話から特定対話モデルを学習する。
図23は、対話モデル学習部240の構成を概略的に示すブロック図である。
対話モデル学習部240は、一般対話記憶部141と、学習データ生成部242と、モデル学習部243と、特定対話記憶部244とを備える。
実施の形態2における対話モデル学習部240の一般対話記憶部141は、実施の形態1における対話モデル学習部140の一般対話記憶部141と同様である。
特定対話記憶部244は、同乗者が電話をしているときに、ドライバが話している場合の対話を示す特定対話情報を記憶する。
学習データ生成部242は、一般対話記憶部141に記憶されている一般対話情報から、最後の発話と、直前の発話とを分離し、一般対話用の学習データのフォーマットに変更する。
また、学習データ生成部242は、特定対話記憶部244に記憶されている特定対話情報から、最後の発話と、直前の発話とを分離し、特定対話用の学習データのフォーマットに変更する。
モデル学習部243は、学習データ生成部242によって生成された一般対話用の学習データを利用して、Encoder Decoder Modelを学習し、学習されたモデルを一般対話モデルとして示す一般対話モデル情報を、一般対話モデル記憶部135に記憶させる。
また、モデル学習部243は、学習データ生成部242によって生成された特定対話用の学習データを利用して、Encoder Decoder Modelを学習し、学習されたモデルを特定対話モデルとして示す特定対話モデル情報を、特定対話モデル記憶部239に記憶させる。
図24は、意図理解装置200による意図推定処理での動作を示すフローチャートである。
なお、図24に示されているフローチャートに含まれている処理の内、図7に示されている実施の形態1のフローチャートと同様の処理については、図7と同様の符号を付して、詳細な説明を省略する。
図24に示されているステップS10からS18までの処理は、図7に示されているステップS10からS18までの処理と同様である。但し、ステップS18でNoの場合には、処理はステップS60に進む。
ステップS60では、トピック判定部227は、現在のユーザの発話に関するトピックを判定する。例えば、現在のユーザの発話が「次は右ですか?」の場合、トピック判定部227は、「道案内」というトピックと判定する。また、現在のユーザの発話が「エアコンをつけてください。」の場合、トピック判定部227は、「エアコン操作」というトピックと判定する。
次に、トピック判定部227は、ステップS60で判定されたトピックが、予め用意されたトピックリストにあるか否かを確認する(S61)。トピックがトピックリストに有る場合(S61でYes)には、処理はステップS21に進み、トピックがトピックリストにない場合(S61でNo)には、処理はステップS62に進む。
ステップS62では、命令判定部230は、意図推定結果がカーナビ向け命令か否かを判定する。ステップS62での処理については、図25を用いて詳細に説明する。そして、処理はステップS20に進む。
図24におけるステップS20及びS21での処理は、図7におけるステップS20及びS21での処理と同様である。
以上のように、実施の形態2では、人間同士に向けた発話か、カーナビに向けた発話か判定が難しい発話を、必ずカーナビに向けた音声命令であると判定とすることができ、誤って人間同士に向けた発話と判定することを抑制することができる。
図25は、カーナビ向け命令判定処理の動作を示すフローチャートである。
なお、図25に示されているフローチャートに含まれている処理の内、図9に示されている実施の形態1のフローチャートと同様の処理については、図9と同様の符号を付して、詳細な説明を省略する。
まず、発話履歴抽出部131は、発話履歴記憶部125に記憶されている発話履歴情報から直前の項目を抽出する(S70)。発話履歴抽出部131は、例えば、過去10秒間の項目、又は、過去10件の項目等、予め定められた基準で項目を抽出することとする。そして、発話履歴抽出部131は、現在のユーザの発話を示す発話情報とともに、抽出された項目を発話パターン識別部238及び文脈適合率推定部232に渡す。
次に、発話パターン識別部238は、直前の項目に含まれている発話と、現在のユーザの発話とを合わせて、発話群パターンを識別する(S71)。
次に、発話パターン識別部238は、識別された発話群パターンが、ドライバのみが話している第1のパターンか否かを判定する(S72)。識別された発話群パターンが第1のパターンである場合(S72でYes)には、処理はステップS73に進み、識別された発話群パターンが第1のパターンではない場合(S72でNo)には、処理はステップS74に進む。
ステップS73では、ドライバのみが話している発話群パターンになっているため、発話パターン識別部238は、現在のユーザの発話を、カーナビ向けの音声命令と判定する。
ステップS74では、発話パターン識別部238は、識別された発話群パターンが、同乗者とドライバが対話している第2のパターンであるか否かを判定する。識別された発話群パターンが第2のパターンである場合(S74でYes)には、処理はステップS31に進む。識別された発話群パターンが第2のパターンではない場合(S74でNo)には、処理はステップS75に進む。
図25に示されているステップS31及びステップS32の処理については、図9に示されているステップS31及びステップS32の処理と同様である。
ステップS75では、発話パターン識別部238は、識別された発話群パターンが、同乗者が電話で話している時に、ドライバが話す第3のパターンであるか否かを判定する。識別された発話群パターンが第3のパターンである場合(S75でYes)には、処理はステップS76に進む。識別された発話群パターンが第3のパターンではない場合(S75でNo)には、処理はステップS77に進む。
ステップS76では、文脈適合率推定部232は、特定対話モデル記憶部239に記憶されている特定対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との文脈適合率を推定する。なお、ここでの処理は、特定対話モデル記憶部239に記憶されている特定対話モデル情報を用いる点を除いて、図10に示されているフローチャートに従って行われる。そして、文脈適合率推定部232は、推定結果を判定実行部136に渡し、処理はステップS32に進む。
ステップS77では、発話パターン識別部238は、第4の発話群パターンになっているため、現在のユーザの発話をカーナビ向けの音声命令ではないと判定する。
なお、特定対話モデル情報を作成する処理については、特定対話記憶部244に記憶されている特定対話情報が使用される点を除いて、図13に示されているフローチャートに従って行われる。なお、詳細な説明は省略する。
以上のように、実施の形態2では、予め定められた複数のパターンから、最後の発話である現在のユーザの発話を含む発話群のパターンを発話パターン識別部で識別し、識別されたパターンに応じて、現在のユーザの発話が音声命令であるか否かを判定する方法を変えることができる。
また、実施の形態2では、現在のユーザの発話のトピックをトピック判定部227で判定する。そして、判定されたトピックが予め定められた特定のトピックである場合に、現在のユーザの発話を音声命令と判定することができる。このため、判定されたトピックが予め定められた特定のトピックではない場合にのみ、命令判定部230が、現在のユーザの発話が音声命令であるか否かを判定する判定処理を行うようにすることで、計算コストを削減することができる。
以上に記載された実施の形態1及び2は、カーナビを適用対象として説明したが、適用対象はカーナビと限らない。実施の形態1及び2は、音声で機械を操作する装置であれば、どのような装置にも適用することができる。例えば、実施の形態1及び2は、スマートスピーカー、空調機等に適用することができる。
なお、以上に記載した実施の形態1及び2では、意図理解装置100、200内に対話モデル学習部140、240が備えられているが、対話モデル学習部140、240の機能は、他の装置(コンピュータ等)で実行され、一般対話モデル情報又は特定対話モデル情報が、図示しないネットワーク又は記録媒体を介して、意図理解装置100、200に読み込まれるようにしてもよい。このような場合、図5及び図6のハードウェア構成として、ネットワークに接続するためのNIC(Network Interface Card)等の通信装置、又は、記録媒体から情報を読み込むための入力装置といったインタフェースを追加し、図1又は図16の取得部110、210で情報を取得すればよい。
100,200 意図理解装置、 110,210 取得部、 111 音声取得部、 112 映像取得部、 213 発着信情報取得部、 120,220 処理部、 121 音声認識部、 122 話者認識部、 123 意図推定部、 124 発話履歴登録部、 125 発話履歴記憶部、 126 乗車人数判定部、 227 トピック判定部、 130,230 命令判定部、 131 発話履歴抽出部、 132,232 文脈適合率推定部、 133,233 文脈適合率計算部、 134 文脈適合率出力部、 135 一般対話モデル記憶部、 136 判定実行部、 137 判定ルール記憶部、 238 発話パターン識別部、 239 特定対話モデル記憶部、 140,240 対話モデル学習部、 141 一般対話記憶部、 142,242 学習データ生成部、 143,243 モデル学習部、 244 特定対話記憶部、 150 命令実行部。

Claims (11)

  1. 1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
    前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
    前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
    複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
    前記複数の発話の各々の意図を推定する意図推定部と、
    前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
    前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部と、を備えること
    を特徴とする情報処理装置。
  2. 前記命令判定部は、前記最後の発話と、前記1又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記文脈適合率が予め定められた閾値以下である場合に、前記最後の発話と、前記1又は複数の発話とが前記対話ではないと判定すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記命令判定部は、前記最後の発話と、前記1又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記最後の発話と、前記最後の発話の1つ前の発話との間の時間が長くなれば長くなるほど前記文脈適合率を低くする重みを特定し、前記重みにより前記文脈適合率を修正した値が予め定められた閾値以下である場合に、前記1又は複数の発話とが前記対話ではないと判定すること
    を特徴とする請求項1に記載の情報処理装置。
  4. 前記命令判定部は、複数のユーザが行った対話から学習された対話モデルを参照することで、前記1又は複数の発話から前記最後の発話に至る確率を前記文脈適合率として計算すること
    を特徴とする請求項2又は3に記載の情報処理装置。
  5. 予め定められた複数のパターンから、前記最後の発話を含む発話群のパターンを識別する発話パターン識別部をさらに備え、
    前記識別されたパターンに応じて、前記最後の発話を前記音声命令であるか否かを判定する方法が異なること
    を特徴とする請求項1に記載の情報処理装置。
  6. 前記1又は複数のユーザがいる空間の映像を示す映像信号を取得する映像取得部と、
    前記映像から、前記1又は複数のユーザの数を判定する人数判定部と、をさらに備え、
    前記命令判定部は、前記判定された数が2以上である場合に、前記判定処理を行うこと
    を特徴とする請求項1から5の何れか一項に記載の情報処理装置。
  7. 前記命令実行部は、前記判定された数が1である場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
    を特徴とする請求項6に記載の情報処理装置。
  8. 前記最後の発話のトピックを判定し、前記判定されたトピックが予め定められた特定のトピックであるか否かを判定するトピック判定部をさらに備え、
    前記命令判定部は、前記判定されたトピックが前記予め定められた特定のトピックではない場合に、前記判定処理を行うこと
    を特徴とする請求項1から7の何れか一項に記載の情報処理装置。
  9. 前記命令実行部は、前記判定されたトピックが前記予め定められた特定のトピックである場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
    を特徴とする請求項8に記載の情報処理装置。
  10. 音声取得部が、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得し、
    音声認識部が、前記音声信号から前記音声を認識し、
    前記音声認識部が、前記認識された音声を文字列に変換して、前記複数の発話を特定し、
    前記音声認識部が、前記複数の発話の各々に対応する時刻を特定し、
    話者認識部が、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識し、
    意図推定部が、前記複数の発話の各々の意図を推定し、
    命令判定部が、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定し、
    命令実行部が、前記命令判定部が前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
    を特徴とする情報処理方法。
  11. コンピュータを、
    1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
    前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
    前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
    複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
    前記複数の発話の各々の意図を推定する意図推定部と、
    前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
    前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部として機能させること
    を特徴とするプログラム。
JP2020539991A 2018-08-31 2018-08-31 情報処理装置、情報処理方法及びプログラム Active JP6797338B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/032379 WO2020044543A1 (ja) 2018-08-31 2018-08-31 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6797338B2 true JP6797338B2 (ja) 2020-12-09
JPWO2020044543A1 JPWO2020044543A1 (ja) 2020-12-17

Family

ID=69644057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020539991A Active JP6797338B2 (ja) 2018-08-31 2018-08-31 情報処理装置、情報処理方法及びプログラム

Country Status (5)

Country Link
US (1) US20210183362A1 (ja)
JP (1) JP6797338B2 (ja)
CN (1) CN112585674A (ja)
DE (1) DE112018007847B4 (ja)
WO (1) WO2020044543A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质
WO2022172393A1 (ja) * 2021-02-12 2022-08-18 三菱電機株式会社 音声認識装置および音声認識方法
WO2022239142A1 (ja) * 2021-05-12 2022-11-17 三菱電機株式会社 音声認識装置及び音声認識方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置
JP2008257566A (ja) * 2007-04-06 2008-10-23 Kyocera Mita Corp 電子機器
US9786268B1 (en) * 2010-06-14 2017-10-10 Open Invention Network Llc Media files in voice-based social media
JP5929811B2 (ja) * 2013-03-27 2016-06-08 ブラザー工業株式会社 画像表示装置および画像表示プログラム
JP2014232289A (ja) * 2013-05-30 2014-12-11 三菱電機株式会社 誘導音声調整装置、誘導音声調整方法および誘導音声調整プログラム
US20150066513A1 (en) * 2013-08-29 2015-03-05 Ciinow, Inc. Mechanism for performing speech-based commands in a system for remote content delivery
CN106796786B (zh) * 2014-09-30 2021-03-02 三菱电机株式会社 语音识别系统
CN107077843A (zh) * 2014-10-30 2017-08-18 三菱电机株式会社 对话控制装置和对话控制方法
US20170287472A1 (en) * 2014-12-18 2017-10-05 Mitsubishi Electric Corporation Speech recognition apparatus and speech recognition method
JP2017090611A (ja) * 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
KR102437833B1 (ko) * 2017-06-13 2022-08-31 현대자동차주식회사 음성 명령 기반 작업 선택 장치, 차량, 음성 명령 기반 작업 선택 방법
US10943606B2 (en) * 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system

Also Published As

Publication number Publication date
WO2020044543A1 (ja) 2020-03-05
CN112585674A (zh) 2021-03-30
JPWO2020044543A1 (ja) 2020-12-17
DE112018007847T5 (de) 2021-04-15
US20210183362A1 (en) 2021-06-17
DE112018007847B4 (de) 2022-06-30

Similar Documents

Publication Publication Date Title
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP3114679B1 (en) Predicting pronunciation in speech recognition
US20190259388A1 (en) Speech-to-text generation using video-speech matching from a primary speaker
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
US20160379633A1 (en) Speech-Controlled Actions Based on Keywords and Context Thereof
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP6080978B2 (ja) 音声認識装置および音声認識方法
US20220343895A1 (en) User-defined keyword spotting
EP1022725B1 (en) Selection of acoustic models using speaker verification
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
Këpuska et al. A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation
CN111968645B (zh) 一种个性化的语音控制系统
Chao et al. Speaker-targeted audio-visual models for speech recognition in cocktail-party environments
CN111684521A (zh) 用于说话者识别的处理语音信号方法及实现其的电子装置
WO2022126040A1 (en) User speech profile management
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
CN109065026B (zh) 一种录音控制方法及装置
Këpuska Wake-up-word speech recognition
KR20180134482A (ko) 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
KR20180066513A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법
Juang et al. Deployable automatic speech recognition systems: Advances and challenges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200729

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200729

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201117

R150 Certificate of patent or registration of utility model

Ref document number: 6797338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250