JP7251953B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP7251953B2
JP7251953B2 JP2018216873A JP2018216873A JP7251953B2 JP 7251953 B2 JP7251953 B2 JP 7251953B2 JP 2018216873 A JP2018216873 A JP 2018216873A JP 2018216873 A JP2018216873 A JP 2018216873A JP 7251953 B2 JP7251953 B2 JP 7251953B2
Authority
JP
Japan
Prior art keywords
duration
input
voice
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018216873A
Other languages
English (en)
Other versions
JP2020086010A (ja
Inventor
文雄 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018216873A priority Critical patent/JP7251953B2/ja
Priority to US16/563,185 priority patent/US11195535B2/en
Priority to CN201910864295.XA priority patent/CN111199738B/zh
Publication of JP2020086010A publication Critical patent/JP2020086010A/ja
Application granted granted Critical
Publication of JP7251953B2 publication Critical patent/JP7251953B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
車両の利用者の利便性を向上させる観点から、マイクロフォンを経由して取り込んだ利用者の声を音声認識し、音声認識結果に基づいてカーナビゲーションシステムを作動させたり、各種の検索動作を起動させたりしている。例えば、利用者が目的地として住所を発話発声すると、カーナビゲーションシステムや、ネットワークを介してカーナビゲーションシステムに接続される音声認識装置では、予め用意された施設情報を検索する。そして、検索結果が、カーナビゲーションシステムの表示画面に表示される。
カーナビゲーションシステムに導入可能な音声認識装置として、検索項目のカテゴリに応じて、利用者の終話(すなわち音声データの入力完了)を判定するための継続時間の設定を変更する技術が知られている(例えば、特許文献1を参照)。継続時間は、音声データが入力されていない無音状態が続いている時間である。特許文献1によれば、住所の音声入力や、施設名の音声入力に応じた継続時間が設定され、設定された継続時間に基づいて音声データの入力を完了するか否かが判定されている。
特開2006-71794号公報
特許文献1では、予め検索項目のカテゴリを設定し、継続時間をそのカテゴリに応じた時間に設定した後、利用者が発話して音声データが入力され、音声認識装置によって音声データの入力が完了したか否かが判定される。特許文献1では、予め検索項目のカテゴリを設定せずに利用者が発話する場合、継続時間が適切に設定されず、音声データの入力完了の判定を適切に行うことができない場合があった。また、音声認識に関連する技術では、利用者の声の特徴に対する考慮もなされておらず、判定に対する柔軟性を向上することが望まれていた。
本発明は、上記に鑑みてなされたものであって、検索ワードの終話判定に対する柔軟性を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声認識装置は、メモリと、ハードウェアを備えたプロセッサと、を備え、前記プロセッサは、入力される音声データの特徴を抽出し、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定することを特徴とする。
また、上記音声認識装置において、前記プロセッサは、入力された音声データが前記無音状態に遷移してから経過した無音時間が、前記継続時間を超過した場合に、前記音声データの入力が完了したと判定してもよい。
この音声認識装置によれば、無音時間が、音声データの特徴に応じて設定される継続時間を超過した場合に、利用者の発話が終了(音声データの入力が完了)したと判定するため、適切なタイミングで利用者の終話を判定することができる。
また、上記音声認識装置において、前記プロセッサは、前記音声データから、前記特徴が住所、施設名及び電話番号のいずれであるかを判定し、判定した特徴に応じて前記継続時間を設定してもよい。
この音声認識装置によれば、音声入力されるカテゴリに応じて継続時間を設定するようにしたので、そのカテゴリに応じた継続時間が設定され、適切なタイミングで利用者の終話を判定することができる。
また、上記音声認識装置において、前記プロセッサは、前記音声データにおける音声認識のエラー回数を算出し、該エラー回数に応じて前記継続時間を設定してもよい。
この音声認識装置によれば、音声認識のエラー回数に応じて継続時間を設定するようにしたので、認識エラーが生じた場合に、適切なタイミングで終話が判定なされるように調整することができる。
また、上記音声認識装置において、前記プロセッサは、当該音声認識装置を利用する利用者の情報から前記音声データの特徴を取得し、該取得した音声データの特徴に応じて前記継続時間を設定してもよい。
この音声認識装置によれば、個人に応じて継続時間を設定するようにしたので、音声入力を行う利用者個人の特性に応じた適切なタイミングで利用者の終話を判定することができる。
また、上記音声認識装置において、前記プロセッサは、利用者の年齢を判定し、判定した年齢に応じて前記継続時間を設定してもよい。
この音声認識装置によれば、発話する利用者の年齢に応じて継続時間を設定するようにしたので、適切なタイミングで利用者の終話を判定することができる。
また、上記音声認識装置において、前記プロセッサは、音声データから発話速度を算出し、算出した発話速度に応じて前記継続時間を設定してもよい。
この音声認識装置によれば、発話速度に応じて継続時間を設定するようにしたので、音声入力を行う個人に適したタイミングでの終話を判定することができ、さらに、発話状況によって適切なタイミングで終話を判定するため、利用者のストレスを低減できる。
また、音声認識方法において、外部から入力される音声を認識する音声認識方法であって、入力される音声データの特徴を抽出し、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定することを特徴とする。
また、音声認識プログラムにおいて、外部から入力される音声を認識する音声認識装置に、入力される音声データの特徴を抽出させ、前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る継続時間を、前記特徴に基づいて設定させることを特徴とする。
本発明に係る音声認識装置、音声認識方法及び音声認識プログラムは、音声データの特徴に応じて継続時間を設定するようにしたので、検索ワードの終話判定に対する柔軟性を向上させることができるという効果を奏する。
図1は、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムを示す概略図である。 図2は、本発明の一実施の形態に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。 図3は、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムにおける発話内容の一例を示す図である。 図4は、本発明の一実施の形態に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。 図5は、本発明の実施の形態の変形例1に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。 図6は、本発明の実施の形態の変形例2に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。 図7は、本発明の実施の形態の変形例2に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。 図8は、本発明の実施の形態の変形例3に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。 図9は、本発明の実施の形態の変形例3に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。
以下、本発明の一実施形態について図面を参照しつつ説明する。なお、以下の一実施形態の全図においては、同一又は対応する部分には同一の符号を付す。また、本発明は以下に説明する一実施形態によって限定されるものではない。
(実施の形態)
まず、本発明の一実施の形態に係る音声認識装置を備える車両用音声認識システムについて説明する。図1は、本発明の一実施形態に係る車両用音声認識システムを示す概略図である。図2は、本発明の一実施の形態に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。
図1に示すように、この一実施形態による車両用音声認識システム1は、音声認識装置20及び車両30を備える。この一実施形態による車両用音声認識システム1においては、音声認識装置20、各車両30が、ネットワーク10によって互いに通信可能に接続されている。具体的には、音声認識装置20と、車両30が備える車両制御装置31とが、ネットワーク10を介して通信可能に接続されている。ネットワーク10は、音声認識装置20及び車両30の相互間で通信可能な、インターネット回線網や携帯電話回線網などから構成される。
音声認識装置20は、各車両30から、音声入力された音声データを受信し、受信した音声データに基づいて処理した情報を送信する。さらに、音声認識装置20は、車両30における安全確認処理等の運転支援処理を実行してもよい。
音声認識装置20は、図3に示すように、通信部21、発話情報処理部22、制御部23及び記憶部24を備える。音声認識装置20は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)、ROM(Read Only Memory)、及びRAM(Random Access Memory)等からなる一つ又は複数のコンピュータ等を用いて構成される。
通信部21は、ネットワーク10に接続して、車両30と通信を行う。通信部21は、車両30から、音声データを受信したり、送信対象の車両30に、音声認識した検索ワードに関する検索結果を送信したりする。通信部21は、このほか、該車両30に関する情報を受信し、車両30の運転を支援する情報を送信してもよい。
発話情報処理部22は、車両30から音声データを受信すると、検索ワードの判定、及び、その検索ワードに対応する検索処理を実行する。発話情報処理部22は、変換部221、カテゴリ判定部222、継続時間設定部223、終話判定部224及び情報抽出部225を備える。以下、「発話」とは利用者が一つ又は複数の単語を発することをいい、「終話」とは利用者が発話を終了することをいう。このため、「発話」中は、車両制御装置31から順次音声データが入力され、「終話」は、利用者の発話による音声データの入力が完了したことを意味する。
変換部221は、車両制御装置31から受信した音声データを単語列へ変換する。発話情報処理部22は、記憶部24にあらかじめ登録されている音素(例えば、「あ」、「い」など)と、受信した音声データとを照合することで、音声データに含まれる各音素を、文字へ変換する。そして、変換部221は、変換した各文字の集合を、記憶部24に予め登録されている単語と照合することで、単語列へと変換する処理を行う。また、変換部221は、予め登録されている文法を単語列に対して適用することで、単語列に含まれる助詞などの単語を、検索キーワードとすべき単語と区別してカテゴリ判定部222へ出力する。
ここで、記憶部24が記憶する単語及び文法の内容は、外部のデータベースを用いて更新することが可能であり、その更新内容は、記憶部24にも反映される。たとえば、データベースに新たな店舗や施設が追加された場合には、追加された店舗名や施設名が新たな単語として記憶部24に追加される。
カテゴリ判定部222は、変換部221から取得した単語列のカテゴリ(発話ドメイン)を判定する。カテゴリとしては、住所や施設、電話番号が挙げられる。カテゴリ判定部222は、単語列に基づいて、例えば住所、施設及び電話番号のうちのいずれかを、この単語列のカテゴリに選択する。本実施の形態では、カテゴリ判定部222によって判定されるカテゴリが、音声データの特徴に相当する。
継続時間設定部223は、音声データの入力が完了したと判定し得る継続時間を設定する。本実施の形態において、継続時間設定部223は、カテゴリ判定部222が判定したカテゴリに応じて継続時間を設定する。この継続時間は、前回音声データを受信した時刻から、新たな音声データの入力を受け付ける期間である。継続時間設定部223は、例えば、カテゴリに「住所」が選択された場合は、継続時間を、「施設」が選択されている場合よりも長い時間に設定する。
終話判定部224は、継続時間設定部223が設定した継続時間に基づいて利用者の発話が終了(終話)したか否かを判定する。具体的に、終話判定部224は、前回音声データが入力された時刻から、音声データが入力されない無音と判定される状態を維持している無音時間が、設定されている継続時間を超過したか否かを判定することによって、利用者の発話による音声データの入力が完了したか否かを判定する。
図3は、本発明の一実施形態に係る音声認識装置を備える車両用音声認識システムにおける発話内容の一例を示す図である。例えば、利用者が、施設名(「近くのコンビニ」)を音声入力した際には、図3の(a)に示すように、カテゴリ判定部222ではカテゴリとして「施設」が選択され、継続時間設定部223によって継続時間がT1に設定される。これに対し、利用者が、住所(「愛知県名古屋市・・・昭和区一丁目・・・」)を音声入力した際には、図3の(b)に示すように、カテゴリ判定部222ではカテゴリとして「住所」が選択され、継続時間設定部223によって継続時間がT2(>T1)に設定される。
具体的には、図3の(a)に示すように、発話開始から「近くのコンビニ」という単語列の音声データを入力し終え、音声データの入力のない無音状態に遷移した時間t11から、継続時間T1が経過しても新たな音声データの入力がなければ、終話判定部224は、今回の音声入力について音声データの入力が完了(終話)したと判定する。
これに対し、図3の(b)に示すように、発話開始から「愛知県名古屋市」という単語列の音声データを入力し終え、音声データの入力のない無音状態に遷移した時間t21から、継続時間T2が経過する前の継続時間内に新たな音声データの入力があれば、単語列の入力処理を継続する。例えば、時間t21から、継続時間T1が経過し、かつ継続時間T2(時間t21から時間t23までの期間)内である時間t22に音声入力があれば、単語列の入力処理を継続する。さらに、その後の「昭和区一丁目」という単語列を認識し終えた時間t24から、継続時間T2内(時間t25まで)に新たな音声データの入力がなければ、終話判定部224は、今回の音声入力について音声データの入力が完了(終話)したと判定する。
情報抽出部225は、変換部221によって変換された単語列について、対応する情報を抽出する。例えば、利用者が住所を発話した場合、情報抽出部225は、記憶部24に記憶されている地図情報から、住所に対応する位置と、その周辺の地図情報とを抽出する。この場合、カテゴリ判定部222はカテゴリとして「住所」を選択し、継続時間設定部223によって住所の音声入力に応じた継続時間が設定される。
なお、情報抽出部225は、終話の判定を待たずに、入力された単語列に基づいて情報を抽出している。この場合、単語列から複数の情報が抽出される場合もある。
音声認識装置20は、情報抽出部225によって情報が抽出されると、この抽出情報を車両30に出力する。
制御部23は、音声認識装置20の各部の動作を統括的に制御する。
記憶部24は、ハードディスクや半導体メモリなどの記憶媒体、及びこれらの記憶媒体のドライブ装置を有して構成され、各種プログラム及び各種データが書き込み及び読み出し可能に格納されている。記憶部24には、音声認識されるデータに対し、検索対象となる情報が記憶されている。検索対象となる情報としては、例えば、地図情報、施設情報、地図情報や施設情報と対応付いた電話番号等が挙げられる。
記憶部24は、個人情報記憶部241を有する。個人情報記憶部241には、車両30に対応付いて登録されている利用者の年齢や、発話速度、顔画像、声情報、体重等の利用者の個人情報が記憶されている。発話速度は、例えば、音声データに基づいて変換される単語列の単語間の無音時間から算出される速度である。このほか、発話速度は、互いに異なる利用者にそれぞれ特徴付けられる速度の相対値としてもよい。
車両30に設けられる車両制御装置31は、ネットワーク10を介して音声認識装置20と通信可能に接続するとともに、車両30の各部を電気的に制御する。車両制御装置31は、通信部32、入出力部33、音声認識部34、ECU(Electronic Control Unit)35を備える。また、車両30には、音声を集音するマイクロフォン36が設けられる。マイクロフォン36によって集音した音声データは、音声認識部34に出力される。
通信部32は、ネットワーク10を介した無線通信によって、音声認識装置20との間で通信を行う。
入出力部33は、タッチパネルディスプレイやスピーカなどから構成される。入出力部33は、ECU35の制御のもと、タッチパネルディスプレイの画面上に文字や図形などを表示したり、スピーカから音を出力したりして、運転支援に関する情報などの所定の情報を入出力可能に構成される。また、入出力部33は、ユーザなどがタッチパネルディスプレイを操作することによって、ECU35に所定の情報を入力可能に構成される。
入出力部33は、例えば、カーナビゲーションシステムの一部を構成する。
音声認識部34は、マイクロフォン36を介して入力される音声から音声データを生成して、ECU35に出力する。ECU35は、音声データが入力されると、ネットワーク10を介して音声認識装置20に送信する。
なお、音声認識部34において、上述した単語列に変換してもよい。
ECU35は、CPU、FPGA、ROM、及びRAMなどからなるマイクロコンピュータ等の情報処理装置によって構成されている。ECU35は、車両30の各部の電気的な動作を統括的に制御する。ECU35は、入力されたデータや予め記憶しているデータ及びプログラムを使用して演算を行い、その演算結果を制御指令信号として出力するように構成されている。ECU35は、例えば、音声認識装置20から情報を受信すると、入出力部33に表示させる。具体的には、情報に応じた画像をカーナビゲーションシステムの表示画面に表示する。
なお、図示省略したが、車両制御装置31は、ハードディスクや半導体メモリなどの記憶媒体、及びこれらの記憶媒体のドライブ装置を含む記憶部を備える。この記憶部には、ECU35が車両30の各部の作動を統括的に制御するために必要なオペレーティングシステム(OS)や各種アプリケーションのプログラムが格納されている。
また、車両30は、走行に必要な従来公知の設備を備える。具体的に、車両30は、エンジンを備える。このエンジンは、燃料の燃焼による駆動によって電動機などを用いて発電可能に構成されてもよい。発電された電力は、例えば充電可能なバッテリに充電される。
また、車両30には、GPS(Global Positioning System)衛星からの電波を受信して、車両30の位置を検出するGPS部を備える(図示略)。検出された位置は、車両30の位置情報として、外部に出力又は記憶部に格納される。
続いて、車両用音声認識システム1が行う音声認識処理について、図4を参照して説明する。図4は、本発明の一実施形態に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図4に示す処理は、例えば、車両30が駆動した後に開始される。
ECU35は、音声認識を開始するか否かを判断する(ステップS101)。ECU35は、マイクロフォン36を通じて音声認識部34が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ECU35は、音声認識部34が音声入力を検出していない場合(ステップS101:No)、音声認識の開始の確認を繰り返す。これに対し、ECU35は、音声認識部34が音声入力を検出した場合(ステップS101:Yes)、音声認識を開始し、ステップS102に移行する。
ステップS102において、音声認識部34は、入力された音声から音声データを生成して、ECU35に出力する。ECU35は、音声データを、ネットワーク10を介して音声認識装置20に送信する。
ステップS102に続くステップS103において、音声認識装置20では、変換部221によって音声データが単語列に変換され、カテゴリ判定部222が、この単語列のカテゴリを判定する。カテゴリ判定部222は、例えば、住所や施設名、電話番号のいずれかをカテゴリとして選択する。
継続時間設定部223は、ステップS104において判定されたカテゴリに応じて継続時間を設定する(ステップ104)。制御部23は、継続時間を設定すると、ステップS105に移行する。
ステップS105において、情報抽出部225が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部21から車両30にこの抽出情報が送信される(ステップS106)。抽出情報には、複数の選択候補を含まれる場合がある。
その後、車両30において、取得した抽出情報が表示される(ステップS107)。
なお、上述したステップS103、S104と、S105~S107とは、順序が逆であってもよい。
終話判定部224は、無音状態であるか否かを判断する(ステップS108)。具体的に、終話判定部224は、車両制御装置31から音声データが入力されたか否かを判断する(ステップS108)。ここで、終話判定部224は、無音状態ではない、すなわち新たな音声データの入力がある場合(ステップS108:No)、ステップS103に戻り、上述した処理を繰り返す。これに対し、ECU35は、音声データが入力されていない、無音状態である場合(ステップS108:Yes)、ステップS109に移行する。
ステップS109において、終話判定部224は、すでに無音時間を計測中であるか否かを判断する。終話判定部224は、無音時間を計測中であれば(ステップS109:Yes)、ステップS111に移行する。これに対し、終話判定部224は、無音時間の計測を開始していなければ(ステップS109:No)、ステップS110に移行する。
ステップS110において、終話判定部224は、無音時間の計測を開始する。終話判定部224は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。
ステップS111において、終話判定部224は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部224は、無音時間が継続時間を超過していないと判断した場合(ステップS111:No)、ステップS108に戻る。これに対し、終話判定部224は、無音時間が継続時間を超過していると判断した場合(ステップS111:Yes)、ステップS112に移行する。
ステップS112において、終話判定部224は、音声データの入力が完了(利用者が発話を終了(終話))したと判定する。
利用者は、車両30において都度表示される抽出結果を確認し、所望の情報を選択、又は設定を行う。例えば、住所を検索した場合、利用者は、目的地とする住所が表示されていれば、その住所を目的地に設定する。この際、現在地から目的地までの経路検索等がなされる。一方、所望の情報が表示されない場合に、利用者が再び音声入力した際には、車両用音声認識システム1において上述した音声認識処理が再度実行される。
以上説明した本実施の形態では、入力された音声データから、発話カテゴリを判定し、判定した発話カテゴリに応じて、音声データの入力が完了したと判定し得る継続時間を設定するようにした。本実施の形態によれば、音声入力を実施する直前に、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。
なお、上述した実施の形態では、発話カテゴリを判定し、この判定した発話カテゴリに基づいて継続時間を設定するようにしたが、継続時間の設定は、発話カテゴリに限定されない。
(変形例1)
次に、本実施の形態の変形例1について、図5を参照して説明する。本変形例1に係る車両用音声認識システムは、上述した音声認識装置20、車両制御装置31において、終話判定部224を車両制御装置31に設ける。これ以外の構成は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
図5は、本発明の実施形態の変形例1に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図5に示す処理は、例えば、車両30が駆動した後に開始される。
ECU35は、音声認識を開始するか否かを判断する(ステップS201)。ECU35は、マイクロフォン36を通じて音声認識部34が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ECU35は、音声認識部34が音声入力を検出していない場合(ステップS201:No)、音声認識の開始の確認を繰り返す。これに対し、ECU35は、音声認識部34が音声入力を検出した場合(ステップS201:Yes)、音声認識を開始し、ステップS202に移行する。
ステップS202において、音声認識部34は、入力された音声から音声データを生成して、ECU35に出力する。ECU35は、音声データを、ネットワーク10を介して音声認識装置20に送信する。
ステップS202に続くステップS203において、音声認識装置20では、変換部221によって音声データが単語列に変換され、カテゴリ判定部222が、この単語列のカテゴリを判定する。カテゴリ判定部222は、例えば、住所や施設名、電話番号のいずれかをカテゴリとして選択する。
継続時間設定部223は、ステップS104において判定されたカテゴリに応じて継続時間を設定する(ステップ204)。制御部23は、継続時間を設定すると、設定した継続時間を車両制御装置31に送信する(ステップS205)。
制御部23は、受信した継続時間にしたがって、継続時間を設定する(ステップ206)。
一方、音声認識装置20では、情報抽出部225が、入力された単語列に対応する情報を抽出する(ステップS207)。単語列に対応する情報が抽出されると、通信部21から車両30にこの抽出情報が送信される(ステップS208)。抽出情報には、複数の選択候補を含まれる場合がある。
その後、車両30において、取得した抽出情報が表示される(ステップS209)。
なお、上述したステップS203~S206と、S207~S209とは、順序が逆であってもよい。
車両制御装置31に設けられる終話判定部224は、無音状態であるか否かを判断する(ステップS210)。具体的に、終話判定部224は、マイクロフォン36を介して音声データが入力されたか否かを判断する。ここで、終話判定部224は、音声データの入力がある場合(ステップS210:No)、ステップS202に戻り、上述した処理を繰り返す。これに対し、ECU35は、音声データが入力されていない、無音状態である場合(ステップS210:Yes)、ステップS211に移行する。
ステップS211において、終話判定部224は、すでに無音時間を計測中であるか否かを判断する。終話判定部224は、無音時間を計測中であれば(ステップS211:Yes)、ステップS213に移行する。これに対し、終話判定部224は、無音時間の計測を開始していなければ(ステップS211:No)、ステップS212に移行する。
ステップS212において、終話判定部224は、無音時間の計測を開始する。終話判定部224は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。
ステップS213において、終話判定部224は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部224は、無音時間が継続時間を超過していないと判断した場合(ステップS213:No)、ステップS210に戻る。これに対し、終話判定部224は、無音時間が継続時間を超過していると判断した場合(ステップS213:Yes)、ステップS14に移行する。
ステップS214において、終話判定部224は、音声データの入力が完了(利用者が発話を終了(終話))したと判定する。
以上説明した変形例1のように、車両制御装置31において、終話が完了したと判定してもよい。本変形例1においても、音声入力を実施する直前に、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。
(変形例2)
図6は、本発明の実施の形態の変形例2に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例2に係る車両用音声認識システムは、上述した音声認識装置20、車両制御装置31に代えて音声認識装置20A、車両制御装置31Aを備える。
音声認識装置20Aは、上述した通信部21、制御部23及び記憶部24に加え、発話情報処理部22Aを備える。通信部21、制御部23及び記憶部24は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
発話情報処理部22Aは、変換部221、継続時間設定部223、終話判定部224及び情報抽出部225を備える。発話情報処理部22Aは、上述した発話情報処理部22に対し、カテゴリ判定部222を有しない構成である。
車両制御装置31Aは、上述した通信部32、入出力部33、音声認識部34及びECU35に加え、個人情報記憶部37を備える。また、車両30には、音声を集音するマイクロフォン36が設けられる。通信部32、入出力部33、音声認識部34及びECU35、並びに車両に設けられるマイクロフォン36は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
個人情報記憶部37は、車両30を利用する利用者の個人情報を記憶する。個人情報記憶部37には、年齢や発話速度等が個人名に対応付けて記憶されている。
ECU35は、入出力部33を介して選択された個人について、個人情報記憶部37を参照して情報を抽出し、音声認識装置20Aに出力する。
本変形例2では、予め設定されている個人情報に基づいて継続時間を設定する。図7は、本発明の実施の形態の変形例1に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図7に示す処理は、例えば、車両が駆動した後に開始される。
まず、車両駆動時、ECU35が、個人情報記憶部37を参照して、自身の車両の個人情報を音声認識装置20に送信する(ステップS301)。ここで送信される個人情報としては、車両に乗って、音声入力を利用する利用者であって、入出力部33を介して選択された利用者の年齢を含む情報である。本変形例1では、利用者の年齢が、音声データの特徴に相当する。
音声認識装置20Aが車両制御装置31Aから個人情報を取得すると、継続時間設定部223が、個人情報に基づいて、継続時間を設定する(ステップS302)。本変形例2では、継続時間設定部223が、個人情報から年齢を抽出し、この年齢に応じて継続時間を設定する。この際、例えば、個人の年齢が高いほど継続時間を長く設定する。
ECU35は、音声認識を開始するか否かを判断する(ステップS303)。ECU35は、マイクロフォン36を通じて音声認識部34が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ECU35は、音声認識部34が音声入力を検出していない場合(ステップS303:No)、音声認識の開始の確認を繰り返す。これに対し、ECU35は、音声認識部34が音声入力を検出した場合(ステップS303:Yes)、音声認識を開始し、ステップS304に移行する。
ステップS304において、音声認識部34は、入力された音声から音声データを生成して、ECU35に出力する。ECU35は、音声データを、ネットワーク10を介して音声認識装置20Aに送信する。
ステップS304に続くステップS305において、音声認識装置20では、変換部221によって音声データが単語列に変換され、情報抽出部225が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部21から車両30にこの抽出情報が送信される(ステップS306)。抽出情報には、複数の選択候補が含まれる場合がある。
その後、車両30Aにおいて、取得した抽出情報が表示される(ステップS307)。
終話判定部224は、無音状態であるか否かを判断する(ステップS308)。具体的に、終話判定部224は、車両制御装置31から音声データが入力されたか否かを判断する(ステップS308)。ここで、終話判定部224は、音声データの入力がある場合(ステップS308:No)、ステップS305に戻り、上述した処理を繰り返す。これに対し、ECU35は、音声データが入力されていない、無音状態である場合(ステップS308:Yes)、ステップS309に移行する。
ステップS309において、終話判定部224は、すでに無音時間を計測中であるか否かを判断する。終話判定部224は、無音時間を計測中であれば(ステップS309:Yes)、ステップS311に移行する。これに対し、終話判定部224は、無音時間の計測を開始していなければ(ステップS309:No)、ステップS310に移行する。
ステップS310において、終話判定部224は、無音時間の計測を開始する。終話判定部224は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。
ステップS311において、終話判定部224は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部224は、無音時間が継続時間を超過していないと判断した場合(ステップS311:No)、ステップS308に戻る。これに対し、終話判定部224は、無音時間が継続時間を超過していると判断した場合(ステップS311:Yes)、ステップS312に移行する。
ステップS312において、終話判定部224は、音声データの入力が完了(利用者が発話を終了(終話))したと判定する。
以上説明した本変形例2では、入力された個人情報から継続時間を設定するようにした。本変形例2によれば、音声入力を実施するにあたり、個人情報から継続時間が設定されるため、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。このように、個人情報に応じて終話を判定することによって、検索ワードの終話判定に対する柔軟性を向上させることができる。
なお、上述した変形例2において、例えば、車両に乗車した個人の顔情報を取得して、顔画像に基づく識別処理によって個人を特定する、又は、声(周波数等)によって個人を特定するようにしてもよい。声によって個人を判定することによって、車両30に複数人乗った場合であっても、発話した利用者に応じた継続時間を設定することができる。
(変形例3)
図8は、本発明の実施の形態の変形例2に係る車両用音声認識システムが備える音声認識装置及び車両制御装置の構成を示すブロック図である。本変形例3に係る車両用音声認識システムは、上述した音声認識装置20に代えて音声認識装置20Bを備える。音声認識装置20B以外の構成は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
音声認識装置20Bは、上述した通信部21、制御部23及び記憶部24に加え、発話情報処理部22Bを備える。通信部21、制御部23及び記憶部24は、上述した車両用音声認識システム1と同じ構成であるため、説明を省略する。
発話情報処理部22Bは、変換部221、認識エラー判定部226、継続時間設定部223、終話判定部224及び情報抽出部225を備える。発話情報処理部22Bは、上述した発話情報処理部22に対し、カテゴリ判定部222に代えて認識エラー判定部226を有する構成である。
認識エラー判定部226は、発話内容(単語又は単語列)の前後の関係を検出して、音声認識処理に認識エラーが生じたか否かを判定する。認識エラー判定部226は、例えば、発話カテゴリや発話内容等、発話内容が途中で変更された場合や、発話内容確定後、設定等がなされず、新たに音声入力があった場合、検索結果として設定候補が幾つか存在した状態で処理が終了した場合に、認識エラーが生じたと判定する。ここで、認識エラー判定部226は、発話内容が、例えば住所から施設名に変わる等、発話内容に繋がりがないと判定した場合に、発話内容が変更されたと判定する。
制御部23は、認識エラーが生じたと判定された場合に、個人情報記憶部241に記憶されている該当の利用者の認識エラー回数を一つ増加させる。本変形例2では、認識エラー回数が、音声データの特徴に相当する。
本変形例3では、予め設定されている個人情報に基づいて継続時間を設定する。図9は、本発明の実施の形態の変形例2に係る車両用音声認識システムが行う音声認識処理の流れを説明する図である。図9に示す処理では、基本とする継続時間が予め設定されている。
ECU35は、音声認識を開始するか否かを判断する(ステップS401)。ECU35は、マイクロフォン36を通じて音声認識部34が音声入力を検出したか否かを判断することによって、音声認識の開始を判断する。ここで、ECU35は、音声認識部34が音声入力を検出していない場合(ステップS401:No)、音声認識の開始の確認を繰り返す。これに対し、ECU35は、音声認識部34が音声入力を検出した場合(ステップS401:Yes)、音声認識を開始し、ステップS402に移行する。
ステップS402において、音声認識部34は、入力された音声から音声データを生成して、ECU35に出力する。ECU35は、音声データを、ネットワーク10を介して音声認識装置20に送信する。
ステップS402に続くステップS403において、音声認識装置20Bでは、変換部221によって音声データが単語列に変換され、情報抽出部225が、入力された単語列に対応する情報を抽出する。単語列に対応する情報が抽出されると、通信部21から車両30にこの抽出情報が送信される(ステップS404)。抽出情報には、複数の選択候補が含まれる場合がある。
その後、車両30において、取得した抽出情報が表示される(ステップS405)。
一方、音声認識装置20Bでは、認識エラーの判定処理が行われる(ステップS406)。認識エラー判定部226は、音声データをもとに、利用者が前回発話した発話内容(単語又は単語列)と、今回の発話内容(単語又は単語列)とを比較して、認識エラーが生じているか否かを判定する。ここで、認識エラー判定部226は、発話内容に認識エラーが生じていると判定した場合(ステップS406:Yes)、ステップS407に移行する。これに対し、認識エラー判定部226は、発話内容に認識エラーが生じていないと判定した場合(ステップS406:No)、ステップS410に移行する。
ステップS407において、制御部23は、認識エラー回数をカウントアップする。これにより、利用者に対応付いた認識エラー回数が一つ増加する。この際、制御部23は、認識エラー回数を記憶部24に記憶させるようにしてもよい。
その後、制御部23は、カウントアップ後の認識エラー回数が閾値以上であるか否かを判定する(ステップS408)。制御部23は、認識エラー回数が閾値以上であると判定した場合(ステップS408:Yes)、ステップS409に移行する。これに対し、制御部23は、認識エラー回数が閾値より小さいと判定した場合(ステップS408:No)、ステップS410に移行する。ここで、閾値は、予め設定されており、継続時間を延長すべきと判断される認識エラーの回数に応じて設定される。
ステップS409において、継続時間設定部223は、継続時間を再設定する。この際、継続時間設定部223は、継続時間が長くなる設定を行う。
一方、ステップS410において、継続時間設定部223は、現在設定されている継続時間の設定を維持する。
ステップS409又はステップS410による継続時間の設定後、終話判定部224は、無音状態であるか否かを判断する(ステップS411)。具体的に、終話判定部224は、車両制御装置31から音声データが入力されたか否かを判断する(ステップS411)。ここで、終話判定部224は、音声データの入力がある場合(ステップS411:No)、ステップS403に戻り、上述した処理を繰り返す。これに対し、ECU35は、音声データが入力されていない、無音状態である場合(ステップS411:Yes)、ステップS412に移行する。
ステップS412において、終話判定部224は、すでに無音時間を計測中であるか否かを判断する。終話判定部224は、無音時間を計測中であれば(ステップS412:Yes)、ステップS414に移行する。これに対し、終話判定部224は、無音時間の計測を開始していなければ(ステップS411:No)、ステップS403に戻り、上述した指示を繰り返す。
ステップS413において、終話判定部224は、無音時間の計測を開始する。終話判定部224は、最新の音声データが入力された時刻からの経過時間を無音時間として計測する。
ステップS414において、終話判定部224は、計測された無音時間が、設定されている継続時間を超過しているか否かを判断する。終話判定部224は、無音時間が継続時間を超過していないと判断した場合(ステップS414:No)、ステップS411に戻る。これに対し、終話判定部224は、無音時間が継続時間を超過していると判断した場合(ステップS414:Yes)、ステップS415に移行する。
ステップS415において、終話判定部224は、音声データの入力が完了(利用者が発話を終了(終話))したと判定する。
以上説明した本変形例3では、音声認識の認識エラーの回数から継続時間を設定するようにした。本変形例3によれば、音声入力を実施するにあたり、認識エラーが続くと継続時間が再設定されるため、予め検索項目のカテゴリを設定せずに、検索ワードの終話を適切に判定することができる。
なお、変形例3において、認識エラーの回数を都度、個人情報と関連付けて個人ごとに認識エラーのカウント値を付与し、車両30に乗った個人を特定後、認識エラーのカウント値が抽出され、そのカウント値に応じて継続時間が設定されるようにしてもよい。
また、上述した実施の形態及び変形例に限らず、例えば、利用者の発話速度が速いほど、継続時間を短くしてもよい。この場合、例えば図4のステップS103、S104において、継続時間設定部223が、音声データに基づいて、例えば単語列の単語間の無音時間を検出したり、単語数とその発話に要した時間とを検出したりして、この検出結果から発話速度を算出し、この発話速度に応じて継続時間を設定する。これにより、例えば利用者が急いで話した場合に、相対的に早く終話することによって、利用者のストレスを軽減することができる。
さらに、利用者の声の声量や抑揚に応じて継続時間を変更してもよい。
また、使用する曜日などを継続時間の設定パラメータとしてもよい。
また、上述したパラメータを、適宜組み合わせてもよい。
上述した実施の形態及び変形例では、音声認識装置20と車両30との通信によってカテゴリ判定や情報抽出を行うようにしたが、例えば、発話情報処理部22と、その処理に必要な情報を車両30に持たせて、車両30内部において、上述した音声認識処理のすべてを行うようにしてもよい。また、車両30に限らず、利用者の端末に、音声認識部34やマイクロフォン36を設けて、発話情報処理部を備えたサーバに接続して音声入力や音声認識処理を実行するようにしてもよい。
さらなる効果や変形例は、当業者によって容易に導き出すことができる。本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施の形態に限定されるものではない。したがって、添付のクレームおよびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
1 車両用音声認識システム
20、20A、20B 音声認識装置
21、32 通信部
22 発話情報処理部
23 制御部
24 記憶部
30 車両
31、31A 車両制御装置
33 入出力部
34 音声認識部
35 ECU
36 マイクロフォン
37、241 個人情報記憶部
221 変換部
222 カテゴリ判定部
223 継続時間設定部
224 終話判定部
225 情報抽出部
226 認識エラー判定部

Claims (9)

  1. メモリと、
    ハードウェアを備えたプロセッサと、
    を備え、
    前記プロセッサは、
    入力される音声データから単語列を抽出し、
    該抽出した単語列のカテゴリを決定し、
    前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
    音声認識装置。
  2. 前記プロセッサは、入力された音声データが前記無音状態に遷移してから経過した無音時間が、前記無音状態の継続時間を超過した場合に、前記音声データの入力が完了したと判定する
    請求項1に記載の音声認識装置。
  3. 前記プロセッサは、前記音声データから、決定した前記カテゴリが住所、施設名及び電話番号のいずれであるかを判定し、判定した特徴に応じて前記無音状態の継続時間を設定する
    請求項1に記載の音声認識装置。
  4. 前記プロセッサは、前記音声データにおける音声認識のエラー回数を算出し、該エラー回数に応じて前記無音状態の継続時間を設定する
    請求項1に記載の音声認識装置。
  5. 前記プロセッサは、当該音声認識装置を利用する利用者の情報から前記音声データの特徴を取得し、該取得した音声データの特徴に応じて前記無音状態の継続時間を設定する
    請求項1に記載の音声認識装置。
  6. 前記プロセッサは、利用者の年齢を判定し、判定した年齢に応じて前記無音状態の継続時間を設定する
    請求項に記載の音声認識装置。
  7. 前記プロセッサは、音声データから発話速度を算出し、算出した発話速度に応じて前記無音状態の継続時間を設定する
    請求項1に記載の音声認識装置。
  8. 外部から入力される音声を認識する音声認識方法であって、
    入力される音声データから単語列を抽出し、
    該抽出した単語列のカテゴリを決定し、
    前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定する
    音声認識方法。
  9. 外部から入力される音声を認識する音声認識装置に、
    入力される音声データから単語列を抽出させ、
    該抽出した単語列のカテゴリを決定し、
    前記音声データが無音状態に遷移した後の該無音状態の継続時間であって前記音声データの入力が完了したと判定し得る無音状態の継続時間を、決定した前記カテゴリに基づいて設定させる
    音声認識プログラム。
JP2018216873A 2018-11-19 2018-11-19 音声認識装置、音声認識方法及び音声認識プログラム Active JP7251953B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018216873A JP7251953B2 (ja) 2018-11-19 2018-11-19 音声認識装置、音声認識方法及び音声認識プログラム
US16/563,185 US11195535B2 (en) 2018-11-19 2019-09-06 Voice recognition device, voice recognition method, and voice recognition program
CN201910864295.XA CN111199738B (zh) 2018-11-19 2019-09-12 语音识别装置、语音识别方法以及语音识别程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018216873A JP7251953B2 (ja) 2018-11-19 2018-11-19 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2020086010A JP2020086010A (ja) 2020-06-04
JP7251953B2 true JP7251953B2 (ja) 2023-04-04

Family

ID=70726709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018216873A Active JP7251953B2 (ja) 2018-11-19 2018-11-19 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (3)

Country Link
US (1) US11195535B2 (ja)
JP (1) JP7251953B2 (ja)
CN (1) CN111199738B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11817117B2 (en) 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018078885A1 (ja) 2016-10-31 2018-05-03 富士通株式会社 対話装置、対話方法及び対話用コンピュータプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
JP3474089B2 (ja) * 1997-11-06 2003-12-08 株式会社デンソー ナビゲーション装置
JP4433704B2 (ja) * 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
JP2006071794A (ja) 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP4668875B2 (ja) * 2006-09-20 2011-04-13 株式会社日立製作所 番組録画再生装置、番組再生位置制御方法及び番組情報提供装置
US8924211B2 (en) * 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
JP6203343B2 (ja) * 2015-11-19 2017-09-27 パナソニック株式会社 音声認識方法及び音声認識装置
CN109475536B (zh) * 2016-07-05 2022-05-27 百济神州有限公司 用于治疗癌症的PD-l拮抗剂和RAF抑制剂的组合
US10038938B1 (en) * 2017-06-02 2018-07-31 Rovi Guides, Inc. Systems and methods for controlling permissions to change parental control settings based on vocal characteristics of a user
KR102441063B1 (ko) * 2017-06-07 2022-09-06 현대자동차주식회사 끝점 검출 장치, 그를 포함한 시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018078885A1 (ja) 2016-10-31 2018-05-03 富士通株式会社 対話装置、対話方法及び対話用コンピュータプログラム

Also Published As

Publication number Publication date
CN111199738B (zh) 2023-12-01
CN111199738A (zh) 2020-05-26
US11195535B2 (en) 2021-12-07
US20200160871A1 (en) 2020-05-21
JP2020086010A (ja) 2020-06-04

Similar Documents

Publication Publication Date Title
US11227611B2 (en) Determining hotword suitability
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN107039038B (zh) 学习个性化实体发音
US20180190288A1 (en) System and method of performing automatic speech recognition using local private data
CN113948083A (zh) 基于用户反馈来改善自动语音识别
JP2010191400A (ja) 音声認識装置およびデータ更新方法
CN110807093A (zh) 语音处理方法、装置及终端设备
US20180357269A1 (en) Address Book Management Apparatus Using Speech Recognition, Vehicle, System and Method Thereof
JP7251953B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2012174515A1 (en) Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
JP2003140690A (ja) 情報システム、電子機器、プログラム
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
US10832675B2 (en) Speech recognition system with interactive spelling function
WO2019230065A1 (ja) 情報処理装置、情報処理方法、プログラム
EP2706528A2 (en) System and method to generate a narrator specific acoustic database without a predefined script
KR20060098673A (ko) 음성 인식 방법 및 장치
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
US20200321006A1 (en) Agent apparatus, agent apparatus control method, and storage medium
TWI574255B (zh) 語音辨識方法、電子裝置及語音辨識系統
CN112995270A (zh) 智能体系统、智能体系统的控制方法及存储介质
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
JP2006184421A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220726

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221020

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221122

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230104

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230131

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230228

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230323

R151 Written notification of patent or utility model registration

Ref document number: 7251953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151