JP2015038526A - 音声処理装置、及び音声処理方法 - Google Patents

音声処理装置、及び音声処理方法 Download PDF

Info

Publication number
JP2015038526A
JP2015038526A JP2011080365A JP2011080365A JP2015038526A JP 2015038526 A JP2015038526 A JP 2015038526A JP 2011080365 A JP2011080365 A JP 2011080365A JP 2011080365 A JP2011080365 A JP 2011080365A JP 2015038526 A JP2015038526 A JP 2015038526A
Authority
JP
Japan
Prior art keywords
character string
similarity
phoneme
string information
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011080365A
Other languages
English (en)
Inventor
千加志 杉浦
Chikashi Sugiura
千加志 杉浦
浩司 藤村
Koji Fujimura
浩司 藤村
聡典 河村
Akinori Kawamura
聡典 河村
隆 須藤
Takashi Sudo
隆 須藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011080365A priority Critical patent/JP2015038526A/ja
Priority to US13/328,251 priority patent/US20120253804A1/en
Publication of JP2015038526A publication Critical patent/JP2015038526A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Abstract

【課題】操作負担を軽減する。【解決手段】実施形態の音声処理装置は、記憶手段と、変換手段と、文字列変換手段と、類似度算出手段と、出力手段と、を備える。記憶手段は、第1の文字列情報と、第1の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第2の音素シンボルに変換する。文字列変換手段は、第2の音素シンボルから、第2の文字列情報に変換する。類似度算出手段は、変換手段により変換された前記第2の音素シンボル、及び文字列変換手段により変換された第2の文字列情報のうちいずれか1つ以上を用いて、入力された音声と、記憶手段に記憶された第1の文字列情報の一部と、の間の類似度を算出する。出力手段は、類似度に基づいて、第1の文字列情報を出力する。【選択図】図3

Description

本発明の実施形態は、音声処理装置、及び音声処理方法に関する。
近年、キーボードやマウス等の入力装置を持たないタッチパネルによるタッチ操作を基本としたスマートフォンやタブレット端末等の情報処理装置の出荷が増えてきている。かかる情報処理装置は、タッチ操作で文字列を入力する際、当該文字列を含んだ予測候補を提示する予測変換技術が提案されている。
一方、文字列の入力手法としては、情報処理装置に備えられたマイクロフォン等を用いて、入力された音声に対して音声認識を行い、文字列を生成する技術が提案されている。この音声認識を用いた文字列の入力手法に、予測候補を提示する予測変換技術を適用することも考えられる。
特開2001−343994号公報
しかしながら、予測変換技術を用いた場合、予め記憶された文字列の先頭からの一部が、入力された音声から変換された文字列と完全一致する必要があるが、音声認識で音声から文字列に変換する際に誤認識等が生じやすい。このため、音声認識に予測変換技術を適用するのは難しい。
本発明は、上記に鑑みてなされたものであって、予測変換技術を音声認識に適用可能にする音声処理装置、及び音声処理方法を提供することを目的とする。
実施形態の音声処理装置は、記憶手段と、変換手段と、文字列変換手段と、類似度算出手段と、出力手段と、を備える。記憶手段は、第1の文字列情報と、第1の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第2の音素シンボルに変換する。文字列変換手段は、第2の音素シンボルから、第2の文字列情報に変換する。類似度算出手段は、変換手段により変換された前記第2の音素シンボル、及び文字列変換手段により変換された第2の文字列情報のうちいずれか1つ以上を用いて、入力された音声と、記憶手段に記憶された第1の文字列情報の一部と、の間の類似度を算出する。出力手段は、類似度に基づいて、第1の文字列情報を出力する。
図1は、実施形態にかかる情報処理装置の外観を模式的に示す図である。 図2は、実施形態にかかる情報処理装置のハードウェア構成の一例を示す図である。 図3は、実施形態にかかる情報処理装置で実現されるソフトウェア構成を示した図である。 図4は、実施形態にかかる情報処理装置が表示する画面の第1の例を示した図である。 図5は、実施形態にかかる情報処理装置が表示する画面の第2の例を示した図である。 図6は、実施形態にかかる情報処理装置が表示する画面の第3の例を示した図である。 図7は、実施形態にかかる情報処理装置が表示する画面の第4の例を示した図である。 図8は、実施形態にかかる情報処理装置における、翻訳対象となる文字列データの選択までの処理の手順を示すフローチャートである。
図1は、本実施形態にかかる情報処理装置の外観を模式的に示す図である。この情報処理装置100は、表示画面を備えた音声処理装置とする。そして、当該情報処理装置100は、例えばスレート端末(タブレット端末)や、音声認識に基づく文書入力装置等として実現されている。なお、ここでは、X軸及びY軸の矢印方向を正方向としている(以下同様)。
情報処理装置100は、薄い箱状の筐体Bを備え、この筐体Bの上面に表示部110が配置されている。表示部110は、ユーザによってタッチされた表示画面上の位置を検知するためのタブレット(図2、タブレット221参照)を備えている。さらに情報処理装置100は、ユーザが発話した音声を入力するためのマイクロフォン101と、ユーザに対して音声を出力するためのスピーカ102と、を備えている。なお、情報処理装置100は、図1の例に限らず、筐体Bの上面に各種ボタンスイッチを配置する形態としてもよい。
図2は、情報処理装置100のハードウェア構成の一例を示す図である。同図に示すように、情報処理装置100は、上述の表示部110、マイクロフォン101、及びスピーカ102に加え、CPU212、システムコントローラ213、グラフィックスコントローラ214、タブレットコントローラ215、加速度センサ216、不揮発性メモリ217及びRAM218等を備えている。
表示部110は、タブレット221と、LCDや有機EL等のディスプレイ222とから構成されている。タブレット221は、例えば、ディスプレイ222の表示画面上に配置された透明の座標検出装置から構成されている。このタブレット221は、上述したように、ユーザの指によってタッチされた表示画面上の位置(タッチ位置)を検知することができる。このタブレット221の働きにより、ディスプレイ222の表示画面はいわゆるタッチスクリーンとして機能する。
CPU212は、情報処理装置100の動作を制御するプロセッサであり、システムコントローラ213を介して情報処理装置100の各コンポーネントを制御する。CPU212は、不揮発性メモリ217からRAM218にロードされる、オペレーティングシステム、各種アプリケーションプログラムを実行することで、後述する各機能部(図3参照)を実現する。RAM218は、情報処理装置100のメインメモリとして機能する。
システムコントローラ213には、不揮発性メモリ217及びRAM218をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ213は、グラフィックスコントローラ214との通信を実行する機能も有している。
グラフィックスコントローラ214は、情報処理装置100のディスプレイモニタとして使用されるディスプレイ222を制御する表示コントローラである。タブレットコントローラ215は、タブレット221を制御し、ユーザによってタッチされたディスプレイ222の表示画面上の位置を示す座標データをタブレット221から取得する。
加速度センサ216は、図1に示す軸方向(X、Y方向)や、これに各軸周りの回転方向の検出を加えた加速度センサ等であって、情報処理装置100に対する外部からの加速度の向きと大きさを検出し、CPU212に出力する。具体的に、加速度センサ216は、加速度を検出した軸、向き(回転の場合、回転角度)、及び大きさを含んだ加速度検出信号をCPU212に出力する。なお、角速度(回転角度)検出のためのジャイロセンサを、加速度センサ216に統合する形態としてもよい。
次に、情報処理装置100のCPU212で音声処理プログラムが実行されることで実現されるソフトウェア構成について説明する。図3は、情報処理装置100で実現されるソフトウェア構成を示した図である。図3に示すように情報処理装置100は、テキスト情報格納部301と、音素列変換部302と、文字列変換部303と、文字列類似度算出部304と、音素列類似度算出部305と、類似度算出部306と、バッファ部307と、優先度算出部308と、条件情報取得部309と、出力部310と、選択部311と、を備える。
テキスト情報格納部301は、図2の不揮発性メモリ217内に設けられ、複数の文字列データと、これら文字列データに対応する音素シンボルのシンボル列と、を対応付けて記憶する。例えば、テキスト情報格納部301は、文字列データ「こんにちは」と、音素列データ「KonNichiwa」(音素のイメージ)と、を対応付けて記憶する。
さらに、テキスト情報格納部301は、テキスト毎にヒット率やこれに準じる値と対応付けて記憶してよい。本実施形態にかかる情報処理装置100においては、テキスト情報格納部301に記憶された文字列データが音声認識結果と一致した場合や、後述する選択部311で選択された場合をヒットしたと称し、当該ヒットの割合をヒット率とする。本実施形態では、テキスト情報格納部301に格納する文字列データを、文単位とした。これにより、選択候補として文字単位で提示されることで、ユーザは文全体を発話せずとも、処理対象となる文を容易に選択、特定することが可能となった。また、文節単位だとユーザの選択操作が頻繁になるが、文単位のため選択際の負担を軽減できる。
このように、本実施形態にかかるテキスト情報格納部301は、文字列データ毎に音素のシンボル列を保持することとした。これにより、情報処理装置100では、類似度の判定をシンボルレベルで可能になった。したがって、ユーザの言い間違いや誤認識で文節の切れ目がおかしくなった場合、又は音声から変換して生成された入力文字列データに間違った表記が含まれていた場合でも、ユーザが意図した選択候補が表示される可能性を向上させることができる。
また、本実施形態にかかる情報処理装置100では、テキスト情報格納部301に記憶された文字列データがヒットした場合に、ヒット対象としてマイクロフォン101から入力された音声から変換された音素列データや文字列データを、ヒットした(テキスト情報格納部301に記憶された)文字列データと対応付けて格納してもよい。これ以降、格納された音素列や文字列を比較に用いることで、音声認識の精度を向上させることができる。
さらに、本実施形態にかかる情報処理装置100では、テキスト情報格納部301に記憶された文字列データがヒットした場合に、後述する条件情報取得部309で取得された、日付、時間帯、天候、現在の場所などの外部の環境情報、音声認識の使用目的、使用者のプロフィールなどの条件情報を、当該文字列データと対応付けて記憶しても良い。
また、情報処理装置100では、ヒット率を算出する際に、ヒット回数の全体に対する割合でヒット率を算出するのではなく、上記条件情報を用いて、条件付き確率を算出し、この条件付き確率をヒット率として用いても良い。
音素列変換部302は、マイクロフォン101から入力された音声信号から、当該音声の音響的な特徴量を有する音素シンボル(以下、音素)に変換する。本実施形態にかかる音素列変換部302は、入力された音声信号からMFCC(Mel-Frequency Cepstral Coefficients)などの音響特徴量を算出し、HMM(Hidden Markov Model 隠れマルコフモデル)などの統計的手法を用いて、音素シンボルに変換するが、他の手法を用いても良い。
文字列変換部303は、音素列変換部302に変換された音素を、音声で発せられた内容を自然言語として示した入力文字列データに変換する。
文字列類似度算出部304は、文字列変換部303により変換された入力文字列データと、テキスト情報格納部301に記憶された文字列データの一部である部分文字列データと、の類似度を示した文字列類似度を算出する。本実施形態にかかる文字列類似度算出部304は、文字列データの一部として、当該文字列データのうち、先頭文字からの一部である部分文字列データを、文字列類似度の算出対象として用いる。
音素列類似度算出部305は、音素列変換部302により変換された音素のシンボル列と、テキスト情報格納部301に記憶された文字列データと対応付けられた音素のシンボル列の一部である部分音素シンボル列と、の音素の類似度を示した音素類似度を算出する。本実施形態にかかる音素列類似度算出部305は、部分音素シンボル列として、テキスト情報格納部301に記憶された音素のシンボル列のうち、先頭文字からの一部である部分音素シンボル列データを、音素類似度の算出対象として用いる。
類似度算出部306は、入力された音声と、テキスト情報格納部301に記憶された各文字列データとの間の類似度を算出する。本実施形態にかかる類似度算出部306は、文字列類似度と、音素類似度と、の両者の重み付け和により算出する。なお、本実施形態にかかる類似度算出部306において、重み付け和の算出に用いる、文字列類似度及び音素類似度のうち、いずれか一方の重みが‘0’の場合、他方のみを用いて類似度を算出することになる。このように文字列類似度及び音素類似度のうち、いずれか一方のみ用いても良い。
バッファ部307は、RAM218内に設けられ、類似度算出部306により算出された類似度を、当該類似度の算出対象となった文字列データの、テキスト情報格納部301の格納先を示す格納IDと対応付けて、一時的に保持する。
条件情報取得部309は、本日の日付、時間帯、天候、現在の場所などの環境情報、音声認識の使用目的、及びユーザのプロフィールなどの条件のうち少なくとも1つ以上を取得する。
優先度算出部308は、バッファ部307に保持された類似度に基づいて、換言すれば音素類似度及び文字列類似度のうちいずれか1つ以上に基づいて、文字列データ毎の優先度を算出する。本実施形態にかかる優先度算出部308は、類似度のみならず、当該文字列データと対応付けられたヒット率とを組み合わせて、優先度を算出する。例えば、類似度が一定の閾値以上、且つヒット数が高い場合に、優先度が高くなる算出手法を用いる。
さらに、優先度算出部308は、条件情報取得部309により取得された日付、時間帯、天候、現在の場所、音声認識の使用目的、及びユーザのプロフィールなどの条件のうち、少なくとも1つ以上を参照し、これら条件と一致する文字列を含む文字列データの優先度が高くなるよう算出する。
そして、優先度算出部308は、算出された優先度に基づいて、入力された音声に類似する部分を含んでいる文字列データを、選択候補として抽出する。本実施形態にかかる優先度算出部308は、算出された優先度が、所定の閾値以上の場合に、当該優先度の算出に用いた類似度とバッファ部307で対応付けられている格納IDで識別される文字列データを、選択候補として抽出する。なお、優先度に基づいて文字列データを選択候補として抽出する際の条件は、所定の閾値以上の場合に抽出することに制限するものではなく、例えば、優先度が高い順に上位n個の文字列データを抽出しても良い。さらに所定の閾値と上位nとを組み合わせ、所定の閾値以下でも上位n個については抽出するとしても良い。
なお、本実施形態では、類似度に対して、ヒット率及び各種条件のうちいずれか1つ以上を組み合わせて算出したが、このような算出手法に制限するものではない。例えば、バッファ部307に格納されている類似度が大きい順に優先度として算出しても良い。他の例としては、バッファ部307に格納されている類似度がある一定の閾値以上の場合に、当該類似度に対応する文字列データを、テキスト情報格納部301から参照し、当該文字列データと対応付けられているヒット率を優先度としても良い。また、ヒット率は、条件付き確率としても良い。
出力部310は、優先度の高い順に、テキスト情報格納部301に記憶された文字列データを、選択候補として、表示部110に出力する。また、出力部310は、表示部110に出力するのではなく、(図示しない)有線通信手段や無線通信手段(図示せず)などの通信手段を介して、外部装置に出力しても良い。
また、出力部310は、全ての文字列データの類似度が、所定の閾値を超えていない場合、文字列変換部303に変換された入力文字列データを、選択候補として、表示部110に出力する。
また、出力部310は、文字列データを選択候補として出力する際に、優先度に応じて、文字列データを目立ちやすい表示色にしたり、目立ちやすい文字サイズにしたり、目立ちやすいフォントにしたり、目立ち易やすい位置に表示したり、目立つ動きなどで表示しても良い。
選択部311は、出力部310で出力された文字列データを選択する。本実施形態にかかる選択部311は、タブレット221を介してユーザに指示された文字列データを、利用対象として選択する。なお、文字列データの選択手法としては、タブレット221を介した指示に制限するものではなく、例えば、ハードキー等の押下で選択を受けつけてもよいし、ソフトウェアキー等で選択を受けつけてもよい。
さらに、選択部311は、表示部110に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、優先度が一番高い文字列データを自動的に選択してもよい。
また、表示部110に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、情報処理装置100は、発話意図の文字列データが無いとみなして、再び音声入力をやり直す手順に遷移しても良い。さらに、表示部110に文字列データが表示された状態で、ユーザからの指示が無く所定の時間を経過した場合、自動で処理を実行する前に、使用者に対して許可を促す表示をしても良い。
上述した構成を備えた情報処理装置100は、外国人への店頭販売の同時翻訳などに用いても良い。つまり、情報処理装置100のテキスト情報格納部301は、日本語の文字列データと、当該日本語の文字列データに対応する外国語の文字列データを対応付けて記憶しても良い。このように利用用途が限定されている場合、発声する音声がある程度決まってくるので、認識率の向上と、処理速度の向上と、を図ることができる。
次に、情報処理装置100の画面例について説明する。図4は、音声「い」が入力された場合に、情報処理装置100が表示する画面例を示した図である。図4に示すように、ユーザが音声「い」を発した場合、情報処理装置100は、音声「い」と音素及び文字列のうちいずれか一方が類似する文字列データを、候補リストとして表示部110に表示する。
図4に示すように、表示部110は、候補リストとして、「いらっしゃいませ」、「いつもご利用ありがとうございます。」、「いらっしゃいませ。何をお探しですか?」、「いらっしゃいませ。分からないことがあれば聞いてください。」、「いろいろとございます。」、「水曜日の入荷となります。」、「小さいサイズもございます。」、「はい、かしこまりました。」、及び「比較的お安いお値段となっております。」を表示する。
この段階では、選択するよりも発話し続ける方が楽なため、ユーザは発話し続けるものとする。なお、発話は、「い」から始まっているが、語頭は検索に曖昧性を持たせるので、「い」以外から始まる候補(ただし語頭に隣接する音素として母音「i」を含む候補)も表示される。文頭が「い」以外から始まる候補としては、例えば、文頭が“い”列(き、し、ち、に、ひ、み、り、…、)で始まる文字列がある。その他に2文字目が“い”であっても良い。これにより表示部110には、「水曜日の入荷となります」401、「小さいサイズもございます」402、及び「比較的お安いお値段となっております。」403が表示される。なお、図4に示す例では、優先度として、過去に発話された頻度順を用いた例とする。なお、頻度順はテキスト情報格納部301にいて文字列データと対応付けて記憶されていたものとする。
そのあと、ユーザによる発話が継続して行われたものとする。図5は、音声「いらっしゃ」が入力された場合に、情報処理装置100が表示する画面例を示した図である。図5に示すように、ユーザが音声「いらっしゃ」を発した場合に、情報処理装置100は、音声「いらっしゃ」と音素及び文字列のうちいずれか一方が類似する文字列データが、候補リストとして表示部110に表示する。
図5に示すように、この段階で、表示部110が表示する候補リストは、「いらっしゃ」が含まれる文字列データに絞り込まれる。この程度まで候補が絞られた場合に、ユーザは発話するのを停止して、図5に示す文字列データの指示を行っても良いし、発話を継続しても良い。文字列データの指示を行った場合には、選択部311は、ユーザが指示した文字列データを、翻訳対象の文字列データとして選択する。
ユーザがさらに発話を継続した場合、例えば、ユーザが「いらっしゃいませ。な…」まで発話した場合、表示部110が候補リストとして、文字列データ「いらっしゃいませ。何をお探しですか?」のみを表示する。この段階でユーザは当該文字列の選択を行っても良いし、最後まで発話しても良い。
また、本実施形態にかかる情報処理装置100は、ユーザが発話した音声と、テキスト情報格納部301に格納されている文字列データが一致する必要はなく、類似していれば候補リストとして表示される。図6は、音声「いらっしゃいませ。お探しのものがあれば…」が入力された場合に、情報処理装置100が表示する画面例を示した図である。図5に示すように、ユーザが音声「いらっしゃいませ。お探しのものがあれば…」を発した場合に、情報処理装置100は、音声「いらっしゃ」と音素及び文字列のうちいずれか一方が類似する文字列データであって、テキスト情報格納部301に記憶されている「いらっしゃいませ。何をお探しですか?」を、候補リストとして表示部110に表示する。
さらに、本実施形態にかかる情報処理装置100は、ユーザが発話した音声と、テキスト情報格納部301に格納されている文字列データが一致する必要はなく、類似している文字列データもない場合、入力された音声に基づく音素のシンボル列から変換された文字列データを表示する。図7は、テキスト情報格納部301に記憶された文字列データに候補が存在しない場合に、情報処理装置100が表示する画面例を示した図である。図7に示すように、ユーザが音声「いらっしゃいませ。ご用件があれば気軽にお呼びください」を発した場合に、情報処理装置100は、テキスト情報格納部301に記憶されている文字列に候補が存在しないため、入力した音声の音素のシンボル列から変換された文字列データ「いらっしゃいませ。ご用件があれば気軽にお呼びください」を、候補リストとして表示部110に表示する。なお、情報処理装置100では、当該文字列がユーザに選択された場合に機械翻訳等を用いて、外国語の文字列データを生成する。
そして、文字列データ「いらっしゃいませ。ご用件があれば気軽にお呼びください」がユーザに選択された場合に、選択部311が、当該文字列データを、文字列データに変換する前の音素のシンボル列と対応付けて、テキスト情報格納部301に記憶する。これにより、以降、ユーザが「いらっしゃいませ。ご用件があれば気軽にお呼びください」と発話する際に、最後まで発話する前に、情報処理装置100は、選択候補として、表示部110に表示することが可能となる。
そして、本実施形態にかかる情報処理装置100は、選択された日本語の文字列データと対応付けられている外国語の文字列データ、又は選択された日本語の文字列データに基づいて機械翻訳等により生成された外国語の文字列データを、音声合成した上で、スピーカ102から出力する。
次に、本実施形態にかかる情報処理装置100における、翻訳対象となる文字列データの選択までの処理について説明する。図8は、本実施形態にかかる情報処理装置100における上述した処理の手順を示すフローチャートである。
まず、情報処理装置100の音素列変換部302が、入力された音声信号を、音素に変換する(ステップS801)。
次に、文字列変換部303が、変換された音素のシンボル列を、自然言語として示した入力文字列データに変換する(ステップS802)。
次に、文字列類似度算出部304が、入力文字列データと、テキスト情報格納部301に格納されている文字列データの一部である部分文字列データと、の間の文字列類似度を算出する(ステップS803)。文字列データの一部である部分文字列データとは、例えば、入力文字列データが1文字の場合、テキスト情報格納部301に格納されている文字列データの先頭1、2文字が部分文字列データに該当する。入力文字列データに類似する部分文字列データを含んだ文字列データが選択候補となる。なお、入力文字列データの文字列の数が増加するに従って、比較対象となる部分文字列データの数も増加する。
その後、音素列類似度算出部305は、音素列変換部302により変換された音素のシンボル列と、テキスト情報格納部301に記憶された文字列データと対応付けられた音素のシンボル列の一部である部分音素シンボル列と、の音素の類似度を示した音素類似度を算出する(ステップS804)。部分音素シンボル列データは、テキスト情報格納部301に記憶された音素シンボル列のうち、入力された音声の音素のシンボル列に対応する部分とする。
次に、類似度算出部306は、文字列類似度及び音素類似度の重み付け和に基づいて、入力された音声と、テキスト情報格納部301に記憶された各文字列データとの間の類似度を算出する(ステップS805)。そして、算出された類似度は、格納IDと対応付けられて、バッファ部307に一時的に格納される。一方、条件情報取得部309が、本日の日付等の条件を取得しておく。
そして、優先度算出部308は、バッファ部307に保持された類似度及び取得された条件等に基づいて、文字列データ毎の優先度を算出する(ステップS806)。
その後、優先度算出部308は、算出された優先度に基づいて、入力された音声に類似する部分を含んでいる文字列データを、選択候補として抽出する(ステップS807)。
そして、出力部310は、抽出された文字列データが存在するか否かを判定する(ステップS808)。抽出された文字列データが存在する場合(ステップS808:Yes)、出力部310は、所定の順序で文字列データを、選択候補として表示部110に表示する(ステップS809)。所定の順序としては、優先度順や、過去に発話された頻度順などとする。この順序は、ユーザが自由に設定可能とする。一方、抽出された文字列データが存在しない場合(ステップS808:No)、出力部310は、文字列変換部303により変換された入力文字列データを、選択候補として表示部110に表示する(ステップS810)。このように、テキスト情報格納部301に候補リストとなる文字列データがある場合には当該文字列データが表示される一方、テキスト情報格納部301に候補リストとなる文字列データがない場合にはユーザの音声から変換された入力文字列データが表示されることになる。
その後、選択部311が、ユーザにより選択候補である文字列データ又は入力文字列データが選択されたか否かを判定する(ステップS811)。選択されていないと判定した場合(ステップS811:No)、情報処理装置100がマイクロフォン101から音声を入力されたか否かを判定する(ステップS812)。音声が入力されたと判定した場合(ステップS812:Yes)、再びステップS801から処理を行う。音声が入力されていないと判定した場合(ステップS812:No)、選択部311が、再び選択候補が選択されたか否かを判定する(ステップS811)。選択候補が選択された場合(ステップS811:Yes)、翻訳対象となる文字列データが決定したものとして処理を終了する。
従来の音声認識において、処理の対象となる文字列データ全体をユーザが音声で発話する必要があったが、本実施形態にかかる情報処理装置100では、発話した音声と類似する部分を含んだ文字列データを選択候補として提示することで、ユーザは全て発話する必要がなくなり、ユーザの負担を軽減することが可能となった。さらには、全て発話する必要がなくなったため、ノイズ環境でのご認識を抑止することが可能となった。
また、本実施形態にかかる情報処理装置100は、選択候補として各文節を提示するのではなく、文全体を候補として表示することした。これにより、文節単位で逐次選択する必要がないため、操作負担を軽減できる。
さらに、情報処理装置100は、音素列変換部302により変換された文字列データを用いて類似判断する際、語頭の検索条件を緩和することとした。これは、語頭はノイズによる誤認識が多いためである。当該処理を行うことで、ユーザが所望する文字列データが選択候補から除外されるのを抑止できる。
上述した実施形態にかかる情報処理装置100では、候補リストを表示する際に、音声認識の途中で予め記憶されている文字列データと比較して類似度が高いもの又は利用頻度が高いものを優先的に表示することとした。これにより、操作性を向上させることができる。
また、上述した実施形態にかかる情報処理装置100では、上述した音素及び文字列の類似度を判定することで、生成された文書データが異なっていても、発話意図が類似する文字列データを選択候補として抽出可能とした。さらには、多少の言い間違いや誤認識を吸収できる。
ところで、従来技術においては、音声認識を行う際、音声発話後、音声認識結果が出力されるまで、発話者は待機する必要があった。一方で、定型化された、特定の文字列データの入力を複数回行いたい場合、同じ発話を複数回繰り返す必要があり、負担が生じていた。
これに対し、上述した実施形態にかかる情報処理装置100は、入力中の音声を音素列や文字列に変換しつつ逐次的に、予め用意しておいた文字列データ又は過去に発話された文字列データとの類似度を算出し、優先度が高い順に表示部110に表示することとした。このように、発話者がリアルタイムに文字列データの選択を可能としたことで、ある程度定型化された文字列を複数回入力する場合の負担を軽減できる。また、周囲の雑音の影響や発話者の発話癖(発話前の舌打ちなど)による誤認識がある場合でも、類似度に基づいて優先度が高い順に候補となる文字列データが表示され、当該候補からユーザが意図した文字列データを選択すればよいので、言い直しやテキスト編集などの手間を省くことができる。特にある程度定型化した複数回繰り返し発話される音声を入力する場合、最後まで発話せずとも選択操作のみで音声入力の目的を果たすことが可能となる。
本実施形態の情報処理装置100で実行される音声処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、本実施形態の情報処理装置100で実行される音声処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の情報処理装置100で実行される音声処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
情報処理装置100で実行される音声処理プログラムは、上述した各部(音素列変換部302、文字列変換部303、文字列類似度算出部304、音素列類似度算出部305、類似度算出部306、優先度算出部308、条件情報取得部309、出力部310、及び選択部311)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMから音声処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音素列変換部302、文字列変換部303、文字列類似度算出部304、音素列類似度算出部305、類似度算出部306、優先度算出部308、条件情報取得部309、出力部310、及び選択部311が主記憶装置上に生成されるようになっている。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
100…情報処理装置、101マイクロフォン、102…スピーカ、110…表示部、111…タブレット、112…ディスプレイ、301…テキスト情報格納部、302…音素列変換部、303…文字列変換部、304…文字列類似度算出部、305…音素列類似度算出部、306…類似度算出部、307…バッファ部、308…優先度算出部、309…条件情報取得部、310…出力部、311…選択部
実施形態の音声処理装置は、記憶手段と、変換手段と、音素類似度算出手段と、出力手段と、を備える。記憶手段は、第1の文字列情報と、第1の音素シンボルと、を対応付けて記憶する。変換手段は、入力された音声から、第2の音素シンボルに変換する。文字列変換手段は、第2の音素シンボルから、第2の文字列情報に変換する。音素類似度算出手段は、変換手段により変換された第2の音素シンボルと、記憶手段に記憶された第1の音素シンボルの一部である部分音素シンボルと、の語頭又は語頭に隣接する音素に含まれる母音に基づいて、音素の類似度を示した音素類似度を算出する。出力手段は、音素類似度算出手段により算出された音素類似度に基づいて、第1の文字列情報を出力する。

Claims (7)

  1. 第1の文字列情報と、当該第1の文字列情報に対応する第1の音素シンボルと、を対応付けて記憶する記憶手段と、
    入力された音声から、第2の音素シンボルに変換する変換手段と、
    前記第2の音素シンボルから、前記音声の内容を自然言語として示した第2の文字列情報に変換する文字列変換手段と、
    前記変換手段により変換された前記第2の音素シンボル、及び前記文字列変換手段により変換された前記第2の文字列情報のうちいずれか1つ以上を用いて、入力された音声と、前記記憶手段に記憶された前記第1の文字列情報の一部と、の間の類似度を算出する類似度算出手段と、
    前記類似度算出手段により算出された前記類似度に基づいて、前記第1の文字列情報を出力する出力手段と、
    を備える音声処理装置。
  2. 前記類似度算出手段は、前記変換手段により変換された前記第2の音素シンボルと、前記記憶手段に記憶された前記第1の音素シンボルの一部である部分音素シンボルと、の類似度を示した音素類似度を算出する音素類似度算出手段と、前記文字列変換手段により変換された前記第2の文字列情報と、前記記憶手段に記憶された前記第1の文字列情報の一部である部分文字列情報と、の類似度を示した文字列類似度を算出する文字列類似度算出手段と、のうちいずれか1つ以上を有し、
    前記出力手段は、前記音素類似度及び前記文字列類似度のうちいずれか1つ以上に基づいて、前記第1の文字列情報を出力する、
    請求項1に記載の音声処理装置。
  3. 前記音素類似度算出手段は、前記第2の音素シンボルと、前記第1の音素シンボルのうち先頭からの一部である部分音素シンボルと、の音素類似度を算出し、
    前記文字列類似度算出手段は、前記第2の文字列情報と、前記第1の文字列情報のうち先頭からの一部である部分文字列情報と、の文字列類似度を算出する、
    請求項2に記載の音声処理装置。
  4. 前記出力手段は、前記抽出手段が入力した音声に類似する部分を含んでいる前記第1の文字列情報がない場合に、前記第2の文字列情報を出力する、
    請求項1乃至3のいずれか1つに記載の音声処理装置。
  5. 前記出力手段は、前記音素類似度及び前記文字列類似度のいずれか1つ以上が高い順に、前記第1の文字列情報を出力する、
    請求項1乃至4のいずれか1つに記載の音声処理装置。
  6. 本日の日付、時間帯、天候、現在の場所、及びユーザの属性情報のうちいずれか1つ以上の条件情報を取得する取得手段をさらに備え、
    前記出力手段は、さらに、前記取得手段が取得する前記条件情報に基づいて順序を定め又は抽出した前記第1の文字列情報を出力する、
    請求項1乃至5のいずれか1つに記載の音声処理装置。
  7. 音声処理装置で実行される音声処理方法であって、
    前記音声処理装置は、前記第1の文字列情報と、当該第1の文字列情報に対応する第1の音素シンボルと、を対応付けて記憶する記憶手段を備え、
    変換手段が、入力された音声から、第2の音素シンボルに変換する変換ステップと、
    文字列変換手段が、前記第2の音素シンボルから、前記音声の内容を自然言語として示した第2の文字列情報に変換する文字列変換ステップと、
    類似度算出手段は、前記変換ステップにより変換された前記第2の音素シンボル、及び前記文字列変換ステップにより変換された前記第2の文字列情報のうちいずれか1つ以上を用いて、入力された音声と、前記記憶手段に記憶された前記第1の文字列情報の一部と、の間の類似度を算出する類似度算出ステップと、
    出力手段が、前記類似度算出ステップにより算出された前記類似度に基づいて、前記第1の文字列情報を出力する出力ステップと
    を含む音声処理方法。
JP2011080365A 2011-03-31 2011-03-31 音声処理装置、及び音声処理方法 Pending JP2015038526A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011080365A JP2015038526A (ja) 2011-03-31 2011-03-31 音声処理装置、及び音声処理方法
US13/328,251 US20120253804A1 (en) 2011-03-31 2011-12-16 Voice processor and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011080365A JP2015038526A (ja) 2011-03-31 2011-03-31 音声処理装置、及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2015038526A true JP2015038526A (ja) 2015-02-26

Family

ID=46928416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011080365A Pending JP2015038526A (ja) 2011-03-31 2011-03-31 音声処理装置、及び音声処理方法

Country Status (2)

Country Link
US (1) US20120253804A1 (ja)
JP (1) JP2015038526A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2940683A4 (en) * 2012-12-28 2016-08-10 Sony Corp INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
WO2015004909A1 (ja) * 2013-07-10 2015-01-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法及び話者識別システム
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
DK201770411A1 (en) * 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202895A (ja) * 1998-01-14 1999-07-30 Hitachi Ltd 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP2000099546A (ja) * 1998-09-25 2000-04-07 Canon Inc 音声によるデータ検索装置、データ検索方法、及び記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11202895A (ja) * 1998-01-14 1999-07-30 Hitachi Ltd 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP2000099546A (ja) * 1998-09-25 2000-04-07 Canon Inc 音声によるデータ検索装置、データ検索方法、及び記憶媒体

Also Published As

Publication number Publication date
US20120253804A1 (en) 2012-10-04

Similar Documents

Publication Publication Date Title
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US10503468B2 (en) Voice enabling applications
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
US9640175B2 (en) Pronunciation learning from user correction
US20190179607A1 (en) Voice Control of Computing Devices
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
WO2015151157A1 (ja) 意図理解装置および方法
JP4667082B2 (ja) 音声認識方法
JP5535238B2 (ja) 情報処理装置
Ogata et al. Speech repair: quick error correction just by using selection operation for speech input interfaces.
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
US10839800B2 (en) Information processing apparatus
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JPWO2009081895A1 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP2015038526A (ja) 音声処理装置、及び音声処理方法
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
JP4967519B2 (ja) 音声認識装置
JPWO2017217046A1 (ja) 情報処理装置及び情報処理方法
JP2006189730A (ja) 音声対話方法および音声対話装置
JP5009037B2 (ja) 音声認識装置、その音声認識方法
JP2002229585A (ja) 音声認識文章入力装置
JP2010186339A (ja) 通訳装置、方法、及びプログラム
JP2009116075A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120710