JP7040449B2 - 音声処理装置、情報処理装置、音声処理方法および情報処理方法 - Google Patents

音声処理装置、情報処理装置、音声処理方法および情報処理方法 Download PDF

Info

Publication number
JP7040449B2
JP7040449B2 JP2018538027A JP2018538027A JP7040449B2 JP 7040449 B2 JP7040449 B2 JP 7040449B2 JP 2018538027 A JP2018538027 A JP 2018538027A JP 2018538027 A JP2018538027 A JP 2018538027A JP 7040449 B2 JP7040449 B2 JP 7040449B2
Authority
JP
Japan
Prior art keywords
voice
certainty
word string
word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018538027A
Other languages
English (en)
Other versions
JPWO2018047421A1 (ja
Inventor
衣未留 角尾
俊之 熊倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018047421A1 publication Critical patent/JPWO2018047421A1/ja
Application granted granted Critical
Publication of JP7040449B2 publication Critical patent/JP7040449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、音声処理装置、情報処理装置、音声処理方法および情報処理方法に関する。
近日、ユーザが発した音声を機械的に認識するための技術が盛んに研究されている。ユーザの音声の認識は、ローカルな端末内で行われることも、ネットワーク上のサーバにより行われることもある。例えば、ローカルな端末は、辞書データを記憶しており、入力音声に相当する単語列を辞書データから推定し、推定された単語列が入力音声に相当する確信度を算出する。特許文献1には、辞書データを用いた入力音声の単語認識および確信度(スコア)の算出が開示されている。
特開2004-177551号公報
しかし、上述した確信度を算出する方法において、辞書データに含まれる単語列を構成する一部の単語を含む入力音声については、当該単語列を構成する他の単語と入力音声の他の部分が相違しても、入力音声が当該単語列に相当する確信度として判定閾値を上回る値が算出され得る。結果、入力音声が辞書データに含まれない単語列に相当する場合でも、入力音声が辞書データに含まれる単語列に相当すると誤判定されることが生じ得る。
そこで、本開示では、推定された単語列についてより緻密な確信度を得ることが可能な、新規かつ改良された音声処理装置、情報処理装置、音声処理方法および情報処理方法を提案する。
本開示によれば、辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、前記単語列推定部により推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割する分割部と、前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、を備える、音声処理装置が提供される。
また、本開示によれば、入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、を備える、情報処理装置が提供される。
また、本開示によれば、辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割することと、前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出する算出することと、を含む、音声処理方法が提供される。
また、本開示によれば、入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定することと、を含む、情報処理方法が提供される。
以上説明したように本開示によれば、推定された単語列についてより緻密な確信度を得ることができる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態による音声処理システムを示す説明図である。 音声認識の方法を模式的に示す説明図である。 語彙内音声の確信度と語彙外音声の確信度の分布例を示す説明図である。 本開示の実施形態による音声処理装置およびサーバの機能ブロック図である。 音声処理部の詳細な機能を示す説明図である。 最尤単語列の分割例を示す説明図である。 語彙内音声と語彙外音声の発話確信度および部分最小確信度の分布の一例を示す説明図である。 確信度の判定閾値の変形例を示す説明図である。 最尤単語列の分割例を示す説明図である。 エラーレートと最小音素数/要素部分の関係を示す説明図である。 本開示の実施形態による音声処理装置の動作を示すフローチャートである。 応用例による音声処理装置の構成を示す説明図である。 音声処理装置のハードウェア構成を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
また、以下に示す項目順序に従って本開示を説明する。
1.音声処理システムの概要
2.音声処理装置およびサーバの構成
3.音声処理部の詳細
4.動作
5.応用例
6.ハードウェア構成
7.むすび
<1.音声処理システムの概要>
本開示の実施形態は、ユーザが発した音声を機械的に認識する音声処理システムに関する。音声処理システムは、ユーザが発した音声の認識結果に基づき、多様な処理を行い得る。以下、図1を参照し、本開示の実施形態による音声処理システムの概要を説明する。
図1は、本開示の実施形態による音声処理システムを示す説明図である。図1に示したように、本開示の実施形態による音声処理システムは、音声処理装置20と、サーバ30と、を有する。音声処理装置20とサーバ30は、通信網12を介して接続される。
通信網12は、通信網12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
音声処理装置20は、ユーザが発した音声を電気的な信号である音声データに変換し、音声データを認識し、音声データの認識結果に対応する処理を実行する。例えば、音声処理装置20は、コンテンツの再生機能を有する場合、「音楽を再生」という音声データが認識されたことに基づき、音楽の再生を開始してもよい。このように、ユーザは音声で音声処理装置20を操作できるので、直感的な操作およびハンズフリー操作が実現される。例えば、ユーザは、ジョギングまたはスポーツをしながらの操作や、車を運転しながらの操作を行い得る。
また、本実施形態による音声処理装置20は、サーバ30と音声認識について連携することが可能である。例えば、音声処理装置20は、通信網12を介して音声データをサーバ30に送信し、サーバ30から音声データの認識結果を受信できる。以下では、音声処理装置20およびサーバ30の双方において音声認識が行われる動作モードをハイブリッドモードと称し、音声処理装置20において音声認識が行われてサーバ30により音声認識が行われない動作モードをローカルモードと称する。
なお、音声処理装置20は、多様な形態で実現され得る。例えば、音声処理装置20は、携帯電話、スマートフォン、PC(Personal Computer)、ゲーム機、映像再生装置またはウェアラブル装置であってもよい。ウェアラブル装置としては、腕時計型装置、イヤホン型装置、ヘッドホン型装置、ヘッドマウントディスプレイおよびネックレス型装置などが挙げられる。
サーバ30は、音声処理装置20から受信した音声データを認識し、認識結果を音声処理装置20に送信する。サーバ30から送信される音声データの認識結果は、音声の内容を示すテキスト、または音声処理装置20に対するコマンドなどの、音声認識に基づく情報であってもよい。例えば、サーバ30により「アーティストAの音楽を再生」という音声データが認識された場合、音声データの認識結果は、「アーティストAの音楽を再生」というテキストであってもよいし、音声処理装置20にアーティストAの音楽の再生を指示するコマンドであってもよい。
なお、携帯電話やポータブル機器などの音声処理装置20で音声認識を行う場合、音声処理装置20での処理量には限りがあるため、サーバ30が有する辞書データよりも小さい辞書データを用いて音声認識を行う。例えば、音声処理装置20が有する辞書データには、数十から数百のオーダーの語彙が含まれる。一方、サーバ30はより多くの語彙を含む辞書データを有するので、多様な発話に対応することが可能である。ただし、サーバ30の音声認識を利用する場合には、音声処理装置20とサーバ30との間での通信遅延が生じる。
(音声認識の概要)
ここで、音声処理装置20が行う音声認識の概要を説明する。音声処理装置20は、音声データの信号波形から、発話内容の単語列を推定する。この単語列の推定については、下記数式1のように、音響モデルおよび言語モデルを用いて定式化される。なお、数式1においてXは音響特徴量の系列であり、lは単語列であり、単語列lは音声認識が利用する辞書データ内の語彙によって構成される。辞書データ内の語彙が多いほど、より多くの音声を正式に認識することが可能となるが、探索のための処理量が増加する。
Figure 0007040449000001
上記数式1は、辞書データの語彙外(OOV:Out Of Vocabulary)の発話が行われた場合であっても、辞書データ内の語彙の組合わせで何かしらの認識結果が出力されることを示す。発話された音声が語彙外であったか否かを検出する方法として、音声認識のためのモデルP(l)と並行してガーベージモデルP(loov)を用意する方法がある(例えば、「Hazen and I. Bazzi, “A Comparison and Combination of Methods for OOV Word Detection and Word Confidence Scoring,” Proc. of ICASSP, pp.397-400, 2001.」参照。)。
ガーベージモデルとしては、例えば音素の遷移をn-gram確率で表現するモデルが利用される。当該モデルは、下記数式2のように表現される。数式2においては、音素列がloov{p1,p2,・・・p}と表現されている。
Figure 0007040449000002
音声処理装置20は、数式2に示される確率(尤度)を最大化する音素列を下記数式3により求め、数式4で示される対数尤度差を、数式1により求められた認識結果の確信度として利用し得る。なお、当該処理は、図2のように表現される。すなわち、ガーベージモデルP(loov)60および音声認識のためのモデルP(l)70が並列的に用いられ、確信度が得られる。
Figure 0007040449000003
Figure 0007040449000004
語彙外の音声について得られる確信度は、語彙内の音声について得られる確信度より低くなる傾向がある。例えば図3に示すように、語彙外の音声について得られる確信度は主に0~0.2の範囲内に分布し、語彙外の音声は主に-0.3~0の範囲内に分布する傾向がある。このため、確信度が閾値を上回るか否かに基づき、発話された音声が語彙内の音声であったか否かを判断する方法が考えられる。
(背景)
しかし、辞書データに含まれる単語列を構成する一部の単語を含む入力音声については、当該単語列を構成する他の単語と入力音声の他の部分が相違しても、入力音声が当該単語列に相当する確信度として閾値を上回る値が算出され得る。例えば、辞書データに現在時刻を確認するための「check the time」が含まれている場合、ジョギングの周回時間を確認するため「check lap time」という発話について、「check the time」との一部重複により閾値を上回る確信度が算出され得る。結果、ユーザは周回時間を確認したいのに、現在時刻がユーザにフィードバックされてしまう。
そこで、本件発明者は、上記事情を一着眼点にして本開示の実施形態による音声処理装置20を創作するに至った。本開示の実施形態による音声処理装置20は、単語列についてより緻密な確信度を得ることにより、発話が語彙内の音声であったか否かの判定をより高精度に行うことが可能である。以下、このような音声処理装置20、および音声処理装置20と協働するサーバ30の構成を説明する。
<2.音声処理装置およびサーバの構成>
図4は、本開示の実施形態による音声処理装置20およびサーバ30の機能ブロック図である。
(サーバ)
図4に示したように、サーバ30は、通信部324および音声認識部340を備える。通信部324は、音声処理装置20とのインタフェースであり、音声処理装置20から音声データを受信し、音声認識部340による音声データの認識結果を音声処理装置20に送信する。
音声認識部340は、通信部324により音声処理装置20から受信された音声データを、例えば「音声認識の概要」において説明した方法により、辞書データを用いて認識する。音声認識部340が利用する辞書データは、後述する音声処理装置20が利用する辞書データよりも、多くの語彙のデータを含む。このため、音声認識部340による音声認識は認識精度の面で優れる。以下では、サーバ30の音声認識部340により得られた認識結果をサーバ認識結果と称する。
(音声処理装置)
音声処理装置20は、図4に示したように、収音部220と、動作モード制御部236と、通信部240と、音声処理部250と、を備える。
収音部220は、空気的な振動で表現される入力音声を、電気的な信号に変換する。当該収音部220の機能は、例えばマイクロフォンにより実現される。本明細書では、収音部220により得られた電気的な信号(PCM:Pulse Code Modulation)、または当該信号の音響特徴量の系列を、音声データと称する。
動作モード制御部236は、音声処理装置20の音声認識に関する動作モードを、ローカルモードとハイブリッドモードとの間で制御する。例えば、動作モード制御部236は、通信部240がサーバ30と接続されている場合には動作モードをハイブリッドモードにして、通信部240がサーバ30と接続されていない場合には動作モードをローカルモードにしてもよい。また、動作モード制御部236は、音声処理装置20のバッテリ残量が所定値を上回っている場合には動作モードをハイブリッドモードにして、バッテリ残量が所定値以下である場合には動作モードをローカルモードにしてもよい。また、動作モード制御部236は、ユーザからの操作に従って動作モードを制御してもよい。
通信部240は、サーバ30とのインタフェースである。通信部240は、ハイブリッドモードにおいて、収音部220から入力される音声データをサーバ30に送信し、サーバ認識結果をサーバ30から受信する。
音声処理部250は、収音部220により収音された入力音声に相当する単語列を推定し、当該推定にかかる確信度を算出する。音声処理部250は、算出した確信度に基づき、推定された単語列を音声認識結果として利用するか否かを決定する。音声処理装置20の動作モードがハイブリッドモードである場合、音声処理部250は、サーバ認識結果の利用を決定することも可能である。
<3.音声処理部の詳細>
以上、図4を参照して、音声処理装置20およびサーバ30の全体構成を説明した。続いて、図5~図10を参照し、音声処理装置20に含まれる音声処理部250の機能をより詳細に説明する。
図5は、音声処理部250の詳細な機能を示す説明図である。図5に示したように、音声処理部250は、音声分析部252、辞書データ記憶部254、単語列推定部256、確率モデル記憶部258、音素列推定部260、発話確信度算出部262、分割部264、部分確信度算出部266、および決定部268を有する。
(音声分析部)
音声分析部252は、収音部220から供給される音声データを処理および分析することにより、入力音声に対応する音響特徴量の系列Xを得る。
(辞書データ記憶部、単語列推定部)
辞書データ記憶部254は、複数の単語列の各々について音響データを記憶する。単語列推定部256は、例えば数式1を参照して説明したように、辞書データ記憶部254を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い単語列を推定する。以下、単語列推定部256により推定された単語列を最尤単語列とも称する。
(確率モデル記憶部、音素列推定部)
確率モデル記憶部258は、音素同士の結合の自然さを表現するn-gram確率を音素の組み合わせごとに記憶する。音素列推定部260は、例えば数式2および数式3を参照して説明したように、確率モデル記憶部258を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い音素列を推定する。以下、音素列推定部260により推定された音素列を最尤音素列とも称する。
(発話確信度算出部)
発話確信度算出部262は、数式4に示したように、最尤単語列と最尤音素列の対数尤度差を、発話内容が最尤単語列に相当する確信度(発話確信度)として算出する。
(分割部)
分割部264は、単語列推定部256により推定された最尤単語列を2以上の要素部分に分割する。そして、分割部264は、各要素部分の開始タイミングおよび終了タイミングを示す情報を部分確信度算出部266に供給する。ここで、図6を参照し、分割部264の処理の具体例を説明する。
図6は、最尤単語列の分割例を示す説明図である。より詳細には、図6は、ユーザが「check weather toward the end of the week」と発話し、単語列推定部256により最尤単語列として「check weather」が推定された例を示している。なお、各単語列には、単語部分に加え、先頭と末尾に無音部分が含まれる。
図6に示した例において、分割部264は、所定の分割ルールに従い、先頭の無音部分および「check」からなる要素部分1、「weather」からなる要素部分2、および末尾の無音部分からなる要素部分3に最尤単語列を分割する。なお、要素部分3に対応する区間に入力音声は存在するが、当該区間は最尤単語列の最終単語の後の区間であるので、最尤単語列の分割において当該区間は無音部分として扱われる。そして、各要素部分の入力音声における開始タイミングおよび終了タイミングであるt0、t1、t2およびt3を示す情報を部分確信度算出部266に供給する。これらタイミングを示す情報に基づき、最尤音素列も同様に、音素部分1、音素部分2、音素部分3に分割される。分割ルールの詳細については後述する。
(部分確信度算出部)
部分確信度算出部266は、最尤単語列を構成する要素部分ごとに、各要素部分の内容が入力音声における対応部分の内容に相当する確信度を算出する。例えば、部分確信度算出部266は、各要素部分の尤度と、各要素部分に対応する音素部分の尤度との関係に基づき、要素部分ごとの確信度を算出する。部分確信度算出部266は、このような要素部分ごとの確信度ciの算出を以下の数式5に従って行うことができる。
Figure 0007040449000005
数式5において、liはi番目の要素部分を示し、looviはi番目の音素部分を示し、Xiはi番目の音響特徴量部分を示し、分母は要素部分の長さ(フレーム長)での正規化を示す。さらに、部分確信度算出部266は、数式6に示すように、各要素部分の確信度ciのうちで最も小さい部分最小確信度cwordを特定する。
Figure 0007040449000006
図6に示した例では、要素部分1~要素部分3の確信度ciのうちで、最尤単語列と最尤音素列で相違する要素部分3の確信度が部分最小確信度cwordとして特定されることが想定される。部分最小確信度cwordに着目することで、より細かな発話の検証を行うことが可能となる。
なお、最尤単語列の推定の過程で最尤単語列の部分ごと(例えば、10msごと)の尤度が得られている場合、部分確信度算出部266は、当該部分ごとの尤度を用いて各要素部分の尤度を算出してもよい。同様に、最尤音素列の推定の過程で最尤音素列の部分ごと(例えば、10msごと)の尤度が得られている場合、部分確信度算出部266は、当該部分ごとの尤度を用いて各音素部分の尤度を算出してもよい。
また、部分確信度算出部266は、要素部分ごとの確信度ciを数式7に示すようにシグモイド関数に適用することにより0~1の範囲内で表現されるスコアsを得てもよい。当該スコアsは、確信度ciよりも他のアプリケーションで利用しやすいという利点がある。
Figure 0007040449000007
(決定部)
決定部268は、発話確信度算出部262により算出された発話確信度、および部分確信度算出部266により特定された部分最小確信度に基づき、最尤単語列の扱いを決定する。例えば、決定部268は、発話確信度が閾値th1以上であり、部分最小確信度が閾値th2以上であることに基づき、最尤単語列を音声認識結果として利用することを決定し、発話確信度が閾値th1未満であること、または部分最小確信度が閾値th2未満であることに基づき、最尤単語列を棄却することを決定してもよい。上記の閾値判定により最尤単語列が棄却された場合、決定部268は、ハイブリッドモードにおいてサーバ30から受信されるサーバ認識結果の利用を決定してもよい。このように発話確信度に加えて部分最小確信度を利用する効果を説明する。
図7は、語彙内音声と語彙外音声の発話確信度および部分最小確信度の分布の一例を示す説明図である。発話確信度が閾値th1以上となることのみが最尤単語列を利用する条件であった場合、図7に示した領域Bに含まれる語彙外音声が語彙内音声として扱われ、誤った音声認識結果が利用されてしまう。これに対し、部分最小確信度が閾値th2以上であることが条件に加わることにより、領域Bに含まれる語彙外音声についての誤った音声認識結果を棄却することが可能となる。すなわち、本実施形態によれば、より緻密な確信度(部分最小確信度)を得ることにより、発話された入力音声が語彙内音声であったか否かの判定をより高精度に行うことが可能である。
なお、図7には閾値が線形である例を示したが、SVM(Support Vector Machine)やDNN(Deep Neural Network)のような識別器の利用により、例えば図8に示すような非線形な閾値が実現されてもよい。
また、上記では、決定部268が発話確信度および部分最小確信度の双方を用いて最尤単語列を音声認識結果として利用するか否かを決定する例を説明したが、本開示の実施形態は当該例に限定されない。例えば、決定部268は、発話確信度を用いず、部分最小確信度を用いて、最尤単語列を音声認識結果として利用するか否かを決定してもよい。
(分割処理)
以上、音声処理部250が有する機能について説明した。続いて、分割部264による最尤単語列の分割処理の具体例を説明する。
分割部264は、最尤単語列を、単語間の境界において分割する。このとき、分割部264は、最尤単語列を単語単位に分割してもよい。しかし、単語「a」は「ax」の1音素からなり、単語「the」は「dh ah」の2音素からなり、このような音素数が少なく情報量が十分でない単語が1つの要素部分を構成すると、安定した結果が得られないことが懸念される。
そこで、音素数が所定数以下である単語は隣接する次の単語と共に1つの要素部分を構成するように最尤単語列の分割が行われてもよい。例えば、分割部264は、図9に示すように、「what’s the time」という最尤単語列を「what’s」「the time」に分割し、「take a picture」という最尤単語列を「take」「a picture」に分割してもよい。
ここで、上記所定数をいずれの数に設定するかによって、最尤単語列の利用/棄却の決定についてのエラーレートが変化する。入力音声のある母集団について上記所定数を多様な数に設定すると、例えば、図10に示すようなエラーレートの傾向が得られる。当該傾向によれば、最小音素数(所定数+1)/要素部分の増加に伴いエラーレートが上昇した後、エラーレートが下がり、その後、エラーレートが再度上昇することを示す。このため、エラーレートが下がりエラーレートが相対的に低い値となるp1~p2の範囲内で最小音素数(所定数+1)が設定されることが望ましい。p1~p2の範囲としては、例えば、「4」~「6」の範囲が挙げられ、特に最小音素数は「5」(所定数が「4」)であってもよい。なお、音素数が所定数以下である単語と隣接する次の単語の合計でも音素数が所定数を上回らない場合、分割部264は、音素数が所定数を上回るまで後続の単語を1つの要素部分に組み込んでもよい。
また、分割部264は、上記の最尤単語列の分割において、無音部分も1単語として扱う。無音部分には音素数は無いが、分割部264は、無音部分の継続長さに応じた音素数を有する単語として当該無音部分を扱ってもよい。このため、所定数以下の音素を有する単語として扱われる無音部分は隣接する次の単語と共に1つの要素部分(例えば、図6に示した要素部分1)を構成し、所定数以上の音素を有する単語として扱われる無音部分は単独で1つの要素部分(例えば、図6に示した要素部分3)を構成する。
<4.動作>
以上、本開示の実施形態による音声処理装置20およびサーバ30の機能を説明した。続いて、図11を参照し、本開示の実施形態による音声処理装置20の動作を整理する。
図11は、本開示の実施形態による音声処理装置20の動作を示すフローチャートである。図11に示したように、まず、収音部220により音声データが取得されると(S404)、単語列推定部256が、辞書データ記憶部254を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い最尤単語列を推定する(S408)。また、音素列推定部260が、確率モデル記憶部258を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い最尤音素列を推定する(S412)。
そして、分割部264が最尤単語列を複数の要素部分に分割し、部分確信度算出部266が最尤音素列を各要素部分に対応する複数の音素部分に分割する(S416)。続いて、部分確信度算出部266は、最尤単語列を構成する要素部分ごとに、各要素部分の内容が入力音声における対応部分の内容に相当する確信度を算出する(S420)。さらに、部分確信度算出部266は、各要素部分の確信度ciのうちで最も小さい部分最小確信度を特定する(S424)。一方、発話確信度算出部262は、最尤単語列と最尤音素列の対数尤度差を、発話内容が最尤単語列に相当する確信度(発話確信度)として算出する(S428)。
決定部268は、発話確信度算出部262により算出された発話確信度、および部分確信度算出部266により算出された部分最小確信度に基づき、ユーザの発話の内容が語彙内発話である最尤単語列であったか否かを判定する(S432)。そして、決定部268は、ユーザの発話の内容が語彙内発話であると判定した場合(S432/yes)、最尤単語列の利用を決定する(S436)。一方、ユーザの発話の内容が語彙内発話でないと判定された場合(S432/no)、ハイブリッドモードにおいては、通信部240が音声データをサーバ30に送信し(S440)、サーバ30からサーバ認識結果を受信する(S444)。そして、決定部268は、サーバ認識結果の利用を決定する(S448)。なお、通信部240は、S408~S432の処理と並行して音声データをサーバ30に送信してもよい。
また、上記では、部分最小確信度を用いてS432の判定が行われる例を説明したが、各要素部分の確信度を用いてS432の判定が行われてもよい。また、要素部分ごとの最小音素数に異なる音素数が適用され、各音素数が適用された場合の要素部分ごとの確信度を部分確信度算出部266が算出し、決定部268は、各音素数が適用された場合の要素部分ごとの確信度を用いてS432の判定を行ってもよい。
<5.応用例>
以上、本開示の実施形態を説明した。続いて、本開示の実施形態の応用例を説明する。応用例は、上述した音声処理部250の機能を利用するアプリケーションの提案に関する。
図12は、応用例による音声処理装置20の構成を示す説明図である。図12に示したように、応用例による音声処理装置20は、通信部240、音声処理部250、アプリケーション部280および表示部290を備える情報処理装置である。
表示部290は、アプリケーション部280からの制御に従い多様な表示画面を表示する。
音声処理部250は、アプリケーション部280からの要求を受け、入力音声に対する最尤単語列および確信度に関する情報をアプリケーション部280に出力するインタフェース270を有する。
アプリケーション部280は、音声処理部250から最尤単語列および確信度に関する情報を取得し、取得した情報に基づいて処理を実行する。ここで、アプリケーション部280は、確信度の出力モードを指定することができる。出力モードとしては、発話全体モード、要素部分(粗い)モード、要素部分(細かい)モードなどが挙げられる。
発話全体モードにおいては、アプリケーション部280は、インタフェース270から発話全体での発話確信度を取得する。例えば、「check lap time」という発話に対し、アプリケーション部280はJSON形式で以下の情報を取得する。なお、以下で示される確信度(TotalScore)は、数式7に示した演算により正規化されたスコアである。

SpeechResult: check the time
TotalScore: 0.6
要素部分(粗い)モードにおいては、アプリケーション部280は、音素が所定数以下である単語が次の単語と連結されて構成される要素部分ごとの確信度をインタフェース270から取得する。例えば、要素部分(粗い)モードが指定された場合、アプリケーション部280は例えば以下の情報を取得する。

SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the time
Score: 0.2
StartTime: 0.56
EndTime: 1.25
}
}
要素部分(細かい)モードにおいては、アプリケーション部280は、最尤単語列を構成する各単語に対応する要素部分ごとの確信度をインタフェース270から取得する。例えば、要素部分(細かい)モードが指定された場合、分割部264が最尤単語列を単語単位に分割し、アプリケーション部280は例えば以下の情報を取得する。

SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the
Score: 0.1
StartTime: 0.56
EndTime: 0.72
}
Word3: {
SpeechResult: time
Score: 0.7
StartTime: 0.72
EndTime: 1.25
}
}
アプリケーション部280は、例えば、部分最小確信度が閾値以上である場合には、最尤単語列の利用を決定する。一方、確信度が閾値未満である要素部分がある場合、アプリケーション部280は、正しい認識のために多様な処理を実行し得る。
例えば、アプリケーション部280は、入力音声を示す音声データをインタフェース270から取得している場合、当該音声データのうちで、確信度が閾値未満である要素部分に対応するデータ部分の認識を、サーバ30に通信部240を介して依頼してもよい。上記の要素部分(粗い)モードの場合で取得される情報の例では、要素部分「the time」の確信度が低い。このため、アプリケーション部280は、音声データのうちで要素部分「the time」に対応するデータ部分の認識をサーバ30に依頼してもよい。このように音声データの一部分の認識をサーバ30に依頼することにより、通信トラフィック、通信遅延およびサーバ30における処理負荷を低減することが可能である。
または、アプリケーション部280は、確信度が閾値未満である要素部分の再発話を誘導する再発話誘導部としての機能を有してもよい。例えば、アプリケーション部280は、確信度が閾値未満である要素部分の再発話を誘導する画面を表示部290に表示させてもよい。上記の要素部分(粗い)モードの場合で取得される情報の例では、要素部分「the time」の確信度が低い。このため、アプリケーション部280は、要素部分「the time」の再発話を誘導するために、「what do you want to check?」というメッセージを含む画面を表示部290に表示させてもよい。かかる構成によれば、確信度が低い要素部分の再発話により、発話全体での正しい認識結果が揃うことが期待される。
<6.ハードウェア構成>
以上、本開示の実施形態を説明した。上述した最尤単語列の推定および確信度の計算などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
図13は、音声処理装置20のハードウェア構成を示した説明図である。図13に示したように、音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、入力装置208と、出力装置210と、ストレージ装置211と、ドライブ212と、撮像装置213と、通信装置215とを備える。
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、音声処理部250の機能が実現され得る。
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置210は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。
ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置211は、CPU201が実行するプログラムや各種データを格納する。
ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
撮像装置213は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。
通信装置215は、例えば、通信網12に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置215は、無線LAN(Local Area Network)対応通信装置であっても、LTE(Long Term Evolution)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
<7.むすび>
以上説明したように、本開示の実施形態によれば、最尤単語列全体での確信度よりも緻密な、最尤単語列を構成する要素部分ごとの確信度が算出される。従って、発話された入力音声が語彙内音声であったか否かの判定をより高精度に行うことが可能である。
なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、図5に示した辞書データ記憶部254に記憶される辞書データは、コンテキストによって変化してもよい。具体的には、音声処理装置20に記録された音楽のアーティスト名が辞書データに自動的に追加されてもよいし、利用場所によって辞書データに含まれる地名が変化してもよい。
また、ユーザが「play music by xxx」のように辞書データに無いアーティスト名を含む音声を発話した場合、アーティスト名を示す「xxx」に対応する要素部分の確信度は小さくなるが、ユーザが何かの曲を再生したいことまでは認識できる。この場合、音声処理装置20は、ユーザの嗜好や再生履歴に基づいて曲を抽出し、抽出した曲の再生を開始してもよい。また、旅行先でユーザが言いなれていない地名「zzz」を含む「how to get to zzz」という音声を発話した場合、「zzz」に対応する要素部分の確信度は小さくなり得るが、決定部268は、旅行先であることに基づき部分最小確信度の閾値を下げることにより、最尤単語列の利用を決定してもよい。このように、要素部分ごとの確信度は、様々な応用に用いることが可能である。
また、上記では、分割部264および部分確信度算出部266の機能が音声処理装置20に設けられる例を説明したが、分割部264および部分確信度算出部266などの音声処理部250の少なくとも一部の機能はサーバ30に設けられてもよい。
また、本明細書の音声処理装置20およびサーバ30の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20およびサーバ30の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、音声処理装置20およびサーバ30に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声処理装置20およびサーバ30の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、以下のような構成も本開示の技術的範囲に属する。
(1)
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
前記単語列推定部により推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
を備える、音声処理装置。
(2)
前記音声処理装置は、前記単語列推定部により推定された単語列を2以上の要素部分に分割する分割部をさらに備え、
前記算出部は、前記2以上の要素部分について前記確信度を算出する、前記(1)に記載の音声処理装置。
(3)
前記分割部は、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、前記単語列を分割する、前記(2)に記載の音声処理装置。
(4)
前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、前記(3)に記載の音声処理装置。
(5)
前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、前記(1)~(4)のいずれか一項に記載の音声処理装置。
(6)
前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、前記(1)~(5)のいずれか一項に記載の音声処理装置。
(7)
前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記(6)に記載の音声処理装置。
(8)
前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記(6)または(7)に記載の音声処理装置。
(9)
前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、前記(6)~(8)のいずれか一項に記載の音声処理装置。
(10)
前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、前記(1)~(9)のいずれか一項に記載の音声処理装置。
(11)
前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、前記(1)~(10)のいずれか一項に記載の音声処理装置。
(12)
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
を備える、情報処理装置。
(13)
前記取得部は、さらに前記入力音声を示す音声データを取得し、
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、前記(12)に記載の情報処理装置。
(14)
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、前記(12)に記載の情報処理装置。
(15)
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出することと、
を含む、音声処理方法。
(16)
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
取得された前記確信度を示す情報に基づき、前記単語列の扱いをプロセッサにより決定することと、
を含む、情報処理方法。
20 音声処理装置
30 サーバ
220 収音部
236 動作モード制御部
240 通信部
250 音声処理部
252 音声分析部
254 辞書データ記憶部
256 単語列推定部
258 確率モデル記憶部
260 音素列推定部
262 発話確信度算出部
264 分割部
266 部分確信度算出部
268 決定部
270 インタフェース
280 アプリケーション部
290 表示部
324 通信部
340 音声認識部

Claims (14)

  1. 辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
    前記単語列推定部により推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割する分割部と、
    前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
    を備える、音声処理装置。
  2. 前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、請求項に記載の音声処理装置。
  3. 前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
    前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、請求項1または2に記載の音声処理装置。
  4. 前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、請求項1~のいずれか一項に記載の音声処理装置。
  5. 前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項に記載の音声処理装置。
  6. 前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
    前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項またはに記載の音声処理装置。
  7. 前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
    前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、請求項のいずれか一項に記載の音声処理装置。
  8. 前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、請求項1~のいずれか一項に記載の音声処理装置。
  9. 前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、請求項1~のいずれか一項に記載の音声処理装置。
  10. 入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
    前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
    を備える、情報処理装置。
  11. 前記取得部は、さらに前記入力音声を示す音声データを取得し、
    前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、請求項10に記載の情報処理装置。
  12. 前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、請求項10に記載の情報処理装置。
  13. 辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
    推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割することと、
    前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出する算出することと、
    を含む、音声処理方法。
  14. 入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
    取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定することと、
    を含む、情報処理方法。
JP2018538027A 2016-09-09 2017-05-31 音声処理装置、情報処理装置、音声処理方法および情報処理方法 Active JP7040449B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016176188 2016-09-09
JP2016176188 2016-09-09
PCT/JP2017/020220 WO2018047421A1 (ja) 2016-09-09 2017-05-31 音声処理装置、情報処理装置、音声処理方法および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2018047421A1 JPWO2018047421A1 (ja) 2019-06-24
JP7040449B2 true JP7040449B2 (ja) 2022-03-23

Family

ID=61562320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018538027A Active JP7040449B2 (ja) 2016-09-09 2017-05-31 音声処理装置、情報処理装置、音声処理方法および情報処理方法

Country Status (4)

Country Link
US (1) US10957322B2 (ja)
EP (1) EP3511931A4 (ja)
JP (1) JP7040449B2 (ja)
WO (1) WO2018047421A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7040449B2 (ja) * 2016-09-09 2022-03-23 ソニーグループ株式会社 音声処理装置、情報処理装置、音声処理方法および情報処理方法
EP3663935A4 (en) * 2017-08-01 2020-07-01 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
WO2021029642A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
CN114223029A (zh) 2019-08-13 2022-03-22 三星电子株式会社 支持装置进行语音识别的服务器及服务器的操作方法
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
US20210312901A1 (en) * 2020-04-02 2021-10-07 Soundhound, Inc. Automatic learning of entities, words, pronunciations, and parts of speech
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358097A (ja) 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2004046106A (ja) 2002-05-15 2004-02-12 Pioneer Electronic Corp 音声認識装置及び音声認識プログラム
JP2007052307A (ja) 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 音声認識結果の検査装置及びコンピュータプログラム
JP2009276495A (ja) 2008-05-14 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP2013064777A (ja) 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2014115499A (ja) 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP4259100B2 (ja) 2002-11-26 2009-04-30 パナソニック株式会社 音声認識用未知発話検出装置及び音声認識装置
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
JP4722700B2 (ja) * 2005-12-28 2011-07-13 株式会社コナミデジタルエンタテインメント チャットシステム、チャット装置及びチャットサーバの制御方法、プログラム
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
DE112015003382B4 (de) * 2014-07-23 2018-09-13 Mitsubishi Electric Corporation Spracherkennungseinrichtung und Spracherkennungsverfahren
US20170256270A1 (en) * 2016-03-02 2017-09-07 Motorola Mobility Llc Voice Recognition Accuracy in High Noise Conditions
US10636414B2 (en) * 2016-03-10 2020-04-28 Sony Corporation Speech processing apparatus and speech processing method with three recognizers, operation modes and thresholds
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
JP7040449B2 (ja) * 2016-09-09 2022-03-23 ソニーグループ株式会社 音声処理装置、情報処理装置、音声処理方法および情報処理方法
CN109215631A (zh) * 2017-07-05 2019-01-15 松下知识产权经营株式会社 语音识别方法、程序、语音识别装置和机器人

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358097A (ja) 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2004046106A (ja) 2002-05-15 2004-02-12 Pioneer Electronic Corp 音声認識装置及び音声認識プログラム
JP2007052307A (ja) 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 音声認識結果の検査装置及びコンピュータプログラム
JP2009276495A (ja) 2008-05-14 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP2013064777A (ja) 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2014115499A (ja) 2012-12-11 2014-06-26 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム

Also Published As

Publication number Publication date
US20190189124A1 (en) 2019-06-20
US10957322B2 (en) 2021-03-23
EP3511931A1 (en) 2019-07-17
JPWO2018047421A1 (ja) 2019-06-24
WO2018047421A1 (ja) 2018-03-15
EP3511931A4 (en) 2019-08-21

Similar Documents

Publication Publication Date Title
JP7040449B2 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
US10365887B1 (en) Generating commands based on location and wakeword
US11564090B1 (en) Audio verification
US11061644B2 (en) Maintaining context for voice processes
US11232808B2 (en) Adjusting speed of human speech playback
US10917758B1 (en) Voice-based messaging
US10448115B1 (en) Speech recognition for localized content
JP6844608B2 (ja) 音声処理装置および音声処理方法
US11823678B2 (en) Proactive command framework
US9837068B2 (en) Sound sample verification for generating sound detection model
US11887596B2 (en) Multiple skills processing
US11574637B1 (en) Spoken language understanding models
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
US10854191B1 (en) Machine learning models for data driven dialog management
US11195522B1 (en) False invocation rejection for speech processing systems
US11532301B1 (en) Natural language processing
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
KR20210053722A (ko) 전자장치 및 그 제어방법
US11626107B1 (en) Natural language processing
US11996081B2 (en) Visual responses to user inputs
US11328713B1 (en) On-device contextual understanding
US11626106B1 (en) Error attribution in natural language processing systems
US11430435B1 (en) Prompts for user feedback
JP4877112B2 (ja) 音声処理装置およびプログラム
JP2014197072A (ja) 音声合成システム、及び音声合成方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R151 Written notification of patent or utility model registration

Ref document number: 7040449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151