JP6797338B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP6797338B2 JP6797338B2 JP2020539991A JP2020539991A JP6797338B2 JP 6797338 B2 JP6797338 B2 JP 6797338B2 JP 2020539991 A JP2020539991 A JP 2020539991A JP 2020539991 A JP2020539991 A JP 2020539991A JP 6797338 B2 JP6797338 B2 JP 6797338B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- unit
- utterances
- voice
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 20
- 238000003672 processing method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000013106 supervised machine learning method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Description
第1の場合:助手席の同乗者が後部座席同乗者と会話していて、運転手が命令を発声している。
第2の場合:助手席の同乗者が電話しており、運転手が命令を発声している。
図1は、実施の形態1に係る意図理解装置100の構成を概略的に示すブロック図である。
意図理解装置100は、取得部110と、処理部120と、命令実行部150とを備える。
取得部110は、音声取得部111と、映像取得部112とを備える。
音声取得部111は、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する。例えば、音声取得部111は、図示されていないマイク等の音声入力装置から音声信号を取得する。
処理部120は、音声認識部121と、話者認識部122と、意図推定部123と、発話履歴登録部124と、発話履歴記憶部125と、乗車人数判定部126と、命令判定部130とを備える。
また、音声認識部121は、特定された発話に対応する時刻、例えば、その発話に対応する音声を認識した時刻を特定する。そして、音声認識部121は、特定された時刻を示す時刻情報を生成する。
具体的には、音素毎に学習された時系列の統計モデルである隠れマルコフモデル(Hidden Markov Model:HMM)を用いて、観測された音声特徴量の系列を最も高い確率で出力することで、音声を認識すればよい。
なお、話者認識部122における話者認識処理は、公知の技術を利用するものとする。例えば、古井 貞熙 著、「音声情報処理」、森北出版株式会社、1998年、6章(133ページ〜146ページ)に記載された技術を利用することで話者認識の処理は実現可能である。
具体的には、予め複数の話者の音声の標準パターンを登録しておいて、登録された標準パターンの内、最も類似度(尤度)の高い話者を選択すればよい。
ここで、意図推定の手法は、テキスト分類に関する公知の技術を利用するものとする。例えば、Pang-ning Tan、Michael Steinbach、Vipin Kumar 著、「Introduction To Data Mining」、Person Education, Inc、2006年、5章(256ページ〜276ページ)に記載されたテキスト分類技術を利用することで、意図推定処理は実現可能である。
具体的には、SVM(Support Vector Machine)を利用して、学習データから複数のクラス(意図)を分類する線を得て、音声認識部121で生成された発話情報で示される発話を、いずれかのクラス(意図)へ分類すればよい。
なお、乗車人数判定部126における人数判定は、顔認識に関する公知の技術を利用するものとする。例えば、酒井 幸市 著、「画像処理とパターン認識入門」、森北出版株式会社、2006年、7章(119ページ〜122ページ)に記載された顔認識技術を利用することで乗車人数判定の処理は実現可能である。
具体的には、顔画像のパターンマッチングにより、乗車している人の顔を認識することで、乗車人数を判定することができる。
命令判定部130は、発話履歴抽出部131と、文脈適合率推定部132と、一般対話モデル記憶部135と、判定実行部136と、判定ルール記憶部137と、対話モデル学習部140とを備える。
文脈適合率推定部132は、文脈適合率計算部133と、文脈適合率出力部134とを備える。
文脈適合率計算部133は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を参照して、音声取得部111に入力された発話と、発話履歴抽出部131に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
なお、文脈適合率計算部133における文脈適合率の計算は、Ilya Sutskever、Oriol Vinyals、Quoc V.le 著、「Sequence to Sequence Learning with Neural Betworks」 (Advances in neural information processing systems)、2014年に記載されているEncoder Decoder Model技術で実現できる。
言い換えると、文脈適合率計算部133は、直前の発話から、現在のユーザの発話に至る確率を文脈適合率として計算する。
判定実行部136は、判定ルール記憶部137に記憶されている判定ルールに従って、現在のユーザの発話がカーナビ向けの命令かどうかを判定する。
判定ルール記憶部137は、現在のユーザの発話がカーナビ向けの命令かどうかを判定するための判定ルールを記憶するデータベースである。
図4は、対話モデル学習部140の構成を概略的に示すブロック図である。
対話モデル学習部140は、一般対話記憶部141と、学習データ生成部142と、モデル学習部143とを備える。
学習データ生成部142は、一般対話記憶部141に記憶されている一般対話情報から、最後の発話と、直前の発話とを分離し、学習データのフォーマットに変更する。
意図理解装置100は、例えば、CPU(Central Processing Unit)等のプロセッサ160と、メモリ161と、マイク、キーボード及びカメラ等のセンサインタフェース(センサI/F)162と、記憶装置としてのハードディスク163と、図示してはいないスピーカ(音声出力装置)又はディスプレイ(表示装置)に映像、音声又は指示を出力するための出力インタフェース(出力I/F)164とを備えている。
図5に示されているプロセッサ160及びメモリ161の代わりに、図6に示されているように、処理回路165が備えられていてもよい。
処理回路165は、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等により構成することができる。
まず、音声取得部111は、図示しないマイクから、ユーザが発話した音声を示す音声信号を取得する(S10)。音声取得部111は、音声信号を処理部120に渡す。
図8に示されている発話履歴情報170は、複数の行を備えており、複数の行の各々が、発話情報で示される発話と、その発話情報に対応する時刻情報で示される時刻と、その発話情報に対応する話者情報で示される話者とを示す1つの項目になっている。
例えば、図8に示されている発話履歴情報170は、二人の話者が話した内容となっている。
意図推定部123における意図推定は、テキスト分類問題となる。意図を予め定義しておき、意図推定部123は、現在のユーザの発話を、いずれかの意図へ分類する。
また、「今日は雨だね」という現在のユーザの発話は、意図が不明であることを示す「UNKNOWN」という意図へ分類される。
即ち、意図推定部123は、現在のユーザの発話を、予め定められた特定の意図に分類できる場合には、その意図に分類し、予め定められた特定の意図に分類できない場合には、意図が不明であることを示す「UNKNOWN」に分類する。
そして、意図推定結果が音声命令である場合(S20でYes)には、処理はステップS21に進み、意図推定結果が音声命令ではない場合(S20でNo)には、処理は終了する。
命令実行部150は、その意図推定結果に対する動作を実行する。
例えば、意図推定結果が「TURN_ON_AIR_CONDITIONER」である場合、命令実行部150は、指示を出力することで、車内の空調機器を起動させる。
まず、発話履歴抽出部131は、発話履歴記憶部125に記憶されている発話履歴情報から直前の項目を抽出する(S30)。発話履歴抽出部131は、例えば、過去10秒間の項目、又は、過去10件の項目等、予め定められた基準で項目を抽出することとする。そして、発話履歴抽出部131は、現在のユーザの発話を示す発話情報とともに、抽出された項目を文脈適合率推定部132に渡す。
判定ルール2を使用しない場合には、判定ルール1により、文脈適合率を閾値と比較することで、判定を行うことができる。
一方、判定ルール2を使用する場合には、算出された文脈適合率を重みにより修正した値を閾値と比較することで、判定を行うことができる。
まず、文脈適合率計算部133は、一般対話モデル記憶部135に記憶されている一般対話モデル情報を用いて、現在のユーザの発話と、直前の項目に含まれている発話との適合性の度合いであるの確率を、文脈適合率として計算する(S40)。
一方、図12に示されている例2のように、現在のユーザの発話が「次は右だっけ?」である場合、直前の発話とのつながりが弱いので、文脈適合率は、0.1と計算される。
例えば、図11の例1に示されているように、文脈適合率が0.9である場合、判定ルール1では、意図推定結果はカーナビ向け命令ではないと判定される。
一方、図11の例2に示されているように、文脈適合率が0.1である場合、判定ルール1では、意図推定結果はカーナビ向け命令と判定される。
まず、学習データ生成部142は、一般対話記憶部141に記憶されている一般対話情報を抽出し、対話毎に、最後の発話と、他の発話とを分離して、学習データを生成する(S50)。
そして、学習データ生成部142は、例えば、図15に示されているように、1つの対話の最後の発話を現在のユーザの発話とし、他の発話を直前の発話として、学習データを生成する。
学習データ生成部142は、生成された学習データをモデル学習部143に渡す。
しかし、SVM等の一般的な教師あり機械学習手法を利用する場合、学習データに文脈に合致しているか合致していないかというラベルを付ける作業が必要であるため、学習データの作成コストが高くなる傾向がある。Encoder Decoder Modelの場合、学習データにラベルがいらない点で優れている。
図16は、実施の形態2に係る情報処理装置としての意図理解装置200の構成を概略的に示すブロック図である。
意図理解装置200は、取得部210と、処理部220と、命令実行部150とを備える。
実施の形態2に係る意図理解装置200の命令実行部150は、実施の形態1に係る意図理解装置100の命令実行部150と同様である。
取得部210は、音声取得部111と、映像取得部112と、発着信情報取得部213とを備える。
実施の形態2における取得部210の音声取得部111及び映像取得部112は、実施の形態1における取得部110の音声取得部111及び映像取得部112と同様である。
処理部220は、音声認識部121と、話者認識部122と、意図推定部123と、発話履歴登録部124と、発話履歴記憶部125と、乗車人数判定部126と、トピック判定部227と、命令判定部230とを備える。
実施の形態2における処理部220の音声認識部121、話者認識部122、意図推定部123、発話履歴登録部124、発話履歴記憶部125及び乗車人数判定部126は、実施の形態1における処理部120の音声認識部121、話者認識部122、意図推定部123、発話履歴登録部124、発話履歴記憶部125及び乗車人数判定部126と同様である。
ここでのトピックの判定は、SVM等の教師あり機械学習手法を利用することで実現可能である。
予め定められたトピックリストに載っている特定のトピックは、例えば、人間同士に向けた発話か、カーナビに向けた発話かの判定が難しい曖昧性のある発話に関するトピックであるものとする。例えば、その特定のトピックとしては、「道案内」又は「エアコン操作」といったトピックがある。
命令判定部230は、発話履歴抽出部131と、文脈適合率推定部232と、一般対話モデル記憶部135と、判定実行部136と、判定ルール記憶部137と、発話パターン識別部238と、特定対話モデル記憶部239と、対話モデル学習部240とを備える。
実施の形態2における命令判定部230の発話履歴抽出部131、一般対話モデル記憶部135、判定実行部136及び判定ルール記憶部137は、実施の形態1における命令判定部130の発話履歴抽出部131、一般対話モデル記憶部135、判定実行部136及び判定ルール記憶部137と同様である。
例えば、発話パターン識別部238は、発話履歴情報から現在の発話群を特定し、特定された発話群を、以下の第1のパターン〜第4のパターンの何れであるかを識別する。
第2のパターンは、同乗者とドライバが発話しているパターン。例えば、図19に示されている発話群例は、第2のパターンであると識別される。
第3のパターンは、同乗者が電話で話している時に、ドライバが話しているパターンである。例えば、図20に示されている発話群例は、第3のパターンであると識別される。
第4のパターンは、その他のパターンである。例えば、図21に示されている発話群例は、第4のパターンである。
もし話者がドライバのみである場合には、発話パターン識別部238は、現在の発話群を、第1のパターンと識別する。
一方、対応する時間に同乗者が通話を行っていない場合には、発話パターン識別部238は、現在の発話群を第2のパターンと識別する。
なお、発話履歴情報から項目を抽出する一定時間については、実験により、最適値が決められればよい。
一方、発話パターン識別部238は、現在の発話群が第4のパターンであると識別した場合には、現在のユーザの発話をカーナビ向けの音声命令ではないと判定する。
同乗者が電話をしている時、話し相手の声を認識することができないため、一般対話モデル情報を利用すると誤判定するおそれがある。従って、このような場合に、特定対話モデル情報に切り替えることによって、カーナビ向け命令の判定精度を向上させることができる。
文脈適合率推定部232は、文脈適合率計算部233と、文脈適合率出力部134とを備える。
実施の形態2における文脈適合率推定部232の文脈適合率出力部134は、実施の形態1における文脈適合率推定部132の文脈適合率出力部134と同様である。
また、文脈適合率計算部233は、発話パターン識別部238が現在の発話群を第3のパターンと識別した場合には、特定対話モデル記憶部239に記憶されている特定対話モデル情報を参照して、音声取得部111に入力された発話と、発話履歴抽出部131に記憶されている発話履歴情報の直前の項目に含まれている発話との文脈適合率を計算する。
図23は、対話モデル学習部240の構成を概略的に示すブロック図である。
対話モデル学習部240は、一般対話記憶部141と、学習データ生成部242と、モデル学習部243と、特定対話記憶部244とを備える。
実施の形態2における対話モデル学習部240の一般対話記憶部141は、実施の形態1における対話モデル学習部140の一般対話記憶部141と同様である。
また、学習データ生成部242は、特定対話記憶部244に記憶されている特定対話情報から、最後の発話と、直前の発話とを分離し、特定対話用の学習データのフォーマットに変更する。
なお、図24に示されているフローチャートに含まれている処理の内、図7に示されている実施の形態1のフローチャートと同様の処理については、図7と同様の符号を付して、詳細な説明を省略する。
なお、図25に示されているフローチャートに含まれている処理の内、図9に示されている実施の形態1のフローチャートと同様の処理については、図9と同様の符号を付して、詳細な説明を省略する。
Claims (11)
- 1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
前記複数の発話の各々の意図を推定する意図推定部と、
前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部と、を備えること
を特徴とする情報処理装置。 - 前記命令判定部は、前記最後の発話と、前記1又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記文脈適合率が予め定められた閾値以下である場合に、前記最後の発話と、前記1又は複数の発話とが前記対話ではないと判定すること
を特徴とする請求項1に記載の情報処理装置。 - 前記命令判定部は、前記最後の発話と、前記1又は複数の発話との間の、文脈としての適合性の度合いを示す文脈適合率を計算し、前記最後の発話と、前記最後の発話の1つ前の発話との間の時間が長くなれば長くなるほど前記文脈適合率を低くする重みを特定し、前記重みにより前記文脈適合率を修正した値が予め定められた閾値以下である場合に、前記1又は複数の発話とが前記対話ではないと判定すること
を特徴とする請求項1に記載の情報処理装置。 - 前記命令判定部は、複数のユーザが行った対話から学習された対話モデルを参照することで、前記1又は複数の発話から前記最後の発話に至る確率を前記文脈適合率として計算すること
を特徴とする請求項2又は3に記載の情報処理装置。 - 予め定められた複数のパターンから、前記最後の発話を含む発話群のパターンを識別する発話パターン識別部をさらに備え、
前記識別されたパターンに応じて、前記最後の発話を前記音声命令であるか否かを判定する方法が異なること
を特徴とする請求項1に記載の情報処理装置。 - 前記1又は複数のユーザがいる空間の映像を示す映像信号を取得する映像取得部と、
前記映像から、前記1又は複数のユーザの数を判定する人数判定部と、をさらに備え、
前記命令判定部は、前記判定された数が2以上である場合に、前記判定処理を行うこと
を特徴とする請求項1から5の何れか一項に記載の情報処理装置。 - 前記命令実行部は、前記判定された数が1である場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする請求項6に記載の情報処理装置。 - 前記最後の発話のトピックを判定し、前記判定されたトピックが予め定められた特定のトピックであるか否かを判定するトピック判定部をさらに備え、
前記命令判定部は、前記判定されたトピックが前記予め定められた特定のトピックではない場合に、前記判定処理を行うこと
を特徴とする請求項1から7の何れか一項に記載の情報処理装置。 - 前記命令実行部は、前記判定されたトピックが前記予め定められた特定のトピックである場合にも、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする請求項8に記載の情報処理装置。 - 音声取得部が、1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得し、
音声認識部が、前記音声信号から前記音声を認識し、
前記音声認識部が、前記認識された音声を文字列に変換して、前記複数の発話を特定し、
前記音声認識部が、前記複数の発話の各々に対応する時刻を特定し、
話者認識部が、前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識し、
意図推定部が、前記複数の発話の各々の意図を推定し、
命令判定部が、複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定し、
命令実行部が、前記命令判定部が前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御すること
を特徴とする情報処理方法。 - コンピュータを、
1又は複数のユーザが発した複数の発話に対応する音声を示す音声信号を取得する音声取得部と、
前記音声信号から前記音声を認識し、前記認識された音声を文字列に変換して、前記複数の発話を特定するとともに、前記複数の発話の各々に対応する時刻を特定する音声認識部と、
前記一又は複数のユーザから、前記複数の発話の各々を発したユーザを話者として認識する話者認識部と、
複数の項目を含み、前記複数の項目の各々が、前記複数の発話の各々、前記複数の発話の各々に対応する前記時刻、及び、前記複数の発話の各々に対応する前記話者を示す、発話履歴情報を記憶する発話履歴記憶部と、
前記複数の発話の各々の意図を推定する意図推定部と、
前記発話履歴情報を参照して、前記複数の発話の内の最後の発話と、前記複数の発話の内の、前記最後の発話の直前の1又は複数の発話とが対話ではない場合に、前記最後の発話を、対象を制御するための音声命令であると判定する判定処理を行う命令判定部と、
前記命令判定部が、前記最後の発話を前記音声命令であると判定した場合に、前記最後の発話から推定された前記意図に従って、前記対象を制御する命令実行部として機能させること
を特徴とするプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/032379 WO2020044543A1 (ja) | 2018-08-31 | 2018-08-31 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6797338B2 true JP6797338B2 (ja) | 2020-12-09 |
JPWO2020044543A1 JPWO2020044543A1 (ja) | 2020-12-17 |
Family
ID=69644057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020539991A Active JP6797338B2 (ja) | 2018-08-31 | 2018-08-31 | 情報処理装置、情報処理方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210183362A1 (ja) |
JP (1) | JP6797338B2 (ja) |
CN (1) | CN112585674A (ja) |
DE (1) | DE112018007847B4 (ja) |
WO (1) | WO2020044543A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7142315B2 (ja) * | 2018-09-27 | 2022-09-27 | パナソニックIpマネジメント株式会社 | 説明支援装置および説明支援方法 |
CN112908297B (zh) * | 2020-12-22 | 2022-07-08 | 北京百度网讯科技有限公司 | 车载设备的响应速度测试方法、装置、设备及存储介质 |
WO2022172393A1 (ja) * | 2021-02-12 | 2022-08-18 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2022239142A1 (ja) * | 2021-05-12 | 2022-11-17 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219207A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ten Ltd | 音声認識装置 |
JP2008257566A (ja) * | 2007-04-06 | 2008-10-23 | Kyocera Mita Corp | 電子機器 |
US9786268B1 (en) * | 2010-06-14 | 2017-10-10 | Open Invention Network Llc | Media files in voice-based social media |
JP5929811B2 (ja) * | 2013-03-27 | 2016-06-08 | ブラザー工業株式会社 | 画像表示装置および画像表示プログラム |
JP2014232289A (ja) * | 2013-05-30 | 2014-12-11 | 三菱電機株式会社 | 誘導音声調整装置、誘導音声調整方法および誘導音声調整プログラム |
US20150066513A1 (en) * | 2013-08-29 | 2015-03-05 | Ciinow, Inc. | Mechanism for performing speech-based commands in a system for remote content delivery |
CN106796786B (zh) * | 2014-09-30 | 2021-03-02 | 三菱电机株式会社 | 语音识别系统 |
CN107077843A (zh) * | 2014-10-30 | 2017-08-18 | 三菱电机株式会社 | 对话控制装置和对话控制方法 |
US20170287472A1 (en) * | 2014-12-18 | 2017-10-05 | Mitsubishi Electric Corporation | Speech recognition apparatus and speech recognition method |
JP2017090611A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
KR102437833B1 (ko) * | 2017-06-13 | 2022-08-31 | 현대자동차주식회사 | 음성 명령 기반 작업 선택 장치, 차량, 음성 명령 기반 작업 선택 방법 |
US10943606B2 (en) * | 2018-04-12 | 2021-03-09 | Qualcomm Incorporated | Context-based detection of end-point of utterance |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
US20190355352A1 (en) * | 2018-05-18 | 2019-11-21 | Honda Motor Co., Ltd. | Voice and conversation recognition system |
-
2018
- 2018-08-31 WO PCT/JP2018/032379 patent/WO2020044543A1/ja active Application Filing
- 2018-08-31 CN CN201880096683.1A patent/CN112585674A/zh active Pending
- 2018-08-31 JP JP2020539991A patent/JP6797338B2/ja active Active
- 2018-08-31 DE DE112018007847.7T patent/DE112018007847B4/de active Active
-
2021
- 2021-02-22 US US17/181,729 patent/US20210183362A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2020044543A1 (ja) | 2020-03-05 |
CN112585674A (zh) | 2021-03-30 |
JPWO2020044543A1 (ja) | 2020-12-17 |
DE112018007847T5 (de) | 2021-04-15 |
US20210183362A1 (en) | 2021-06-17 |
DE112018007847B4 (de) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US20190259388A1 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
US20160379633A1 (en) | Speech-Controlled Actions Based on Keywords and Context Thereof | |
JP2017097162A (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
JP6080978B2 (ja) | 音声認識装置および音声認識方法 | |
US20220343895A1 (en) | User-defined keyword spotting | |
EP1022725B1 (en) | Selection of acoustic models using speaker verification | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
Këpuska et al. | A novel wake-up-word speech recognition system, wake-up-word recognition task, technology and evaluation | |
CN111968645B (zh) | 一种个性化的语音控制系统 | |
Chao et al. | Speaker-targeted audio-visual models for speech recognition in cocktail-party environments | |
CN111684521A (zh) | 用于说话者识别的处理语音信号方法及实现其的电子装置 | |
WO2022126040A1 (en) | User speech profile management | |
JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
Këpuska | Wake-up-word speech recognition | |
KR20180134482A (ko) | 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법 | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
CN108665907B (zh) | 声音识别装置、声音识别方法、记录介质以及机器人 | |
CN114120979A (zh) | 语音识别模型的优化方法、训练方法、设备及介质 | |
KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
KR20180066513A (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 | |
Juang et al. | Deployable automatic speech recognition systems: Advances and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200729 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200729 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6797338 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |