JP6790003B2 - 編集支援装置、編集支援方法及びプログラム - Google Patents

編集支援装置、編集支援方法及びプログラム Download PDF

Info

Publication number
JP6790003B2
JP6790003B2 JP2018018642A JP2018018642A JP6790003B2 JP 6790003 B2 JP6790003 B2 JP 6790003B2 JP 2018018642 A JP2018018642 A JP 2018018642A JP 2018018642 A JP2018018642 A JP 2018018642A JP 6790003 B2 JP6790003 B2 JP 6790003B2
Authority
JP
Japan
Prior art keywords
word
voice
weight
utterance
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018018642A
Other languages
English (en)
Other versions
JP2019135529A (ja
Inventor
平 芦川
平 芦川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018018642A priority Critical patent/JP6790003B2/ja
Priority to CN201810918988.8A priority patent/CN110136720B/zh
Publication of JP2019135529A publication Critical patent/JP2019135529A/ja
Application granted granted Critical
Publication of JP6790003B2 publication Critical patent/JP6790003B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は編集支援装置、編集支援方法及びプログラムに関する。
入力された音声を文字列に変換する音声認識技術が従来から知られている。一般に、音声認識処理では、以下の処理(1)〜(4)が行われている。(1)入力された音声から音響特徴量が算出される。(2)音響モデルを用いて、音響特徴量がサブワード(音素)へと変換される。(3)発音辞書を用いて、サブワードが単語へ変換される。(4)言語モデルを用いて、単語間のつながりが尤も確からしい遷移系列が決定される。
特開2016−102947号公報 特許第5713963号公報 特許第5546565号公報
しかしながら、従来の技術では、発音辞書に追加された単語による音声認識結果の影響範囲を具体的に把握することが難しかった。
実施形態の編集支援装置は、抽出部と推定部と出力制御部とを備える。抽出部は、音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する。推定部は、前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する。出力制御部は、設定された前記重みに応じて、前記推定認識結果の出力を制御する。
第1実施形態の編集支援装置の機能構成の例を示す図。 第1実施形態のユーザ辞書の例(日本語の場合)を示す図。 第1実施形態のユーザ辞書の例(英語の場合)を示す図。 第1実施形態の発話音声集合の例(日本語の場合)を示す図。 第1実施形態の発話音声集合の例(英語の場合)を示す図。 第1実施形態の編集距離を利用した関連発話音声の抽出例(日本語の場合)を示す図。 第1実施形態の編集距離を利用した関連発話音声の抽出例(英語の場合)を示す図。 第1実施形態の重みと推定認識結果の例(日本語の場合)を示す図。 第1実施形態の重みと推定認識結果の例(英語の場合)を示す図。 第1実施形態の推定認識結果を含む出力情報の例を示す図。 第1実施形態の推定認識結果を含む出力情報の例を示す図。 第1実施形態の編集支援方法の例を示すフローチャート。 第2実施形態の編集支援装置の機能構成の例を示す図。 第1実施形態の編集支援装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、編集支援装置、編集支援方法及びプログラムの実施形態を詳細に説明する。
(第1実施形態)
第1実施形態の編集支援装置は、例えば音声認識に使用される辞書を編集可能な音声認識システムで使用される。はじめに、第1実施形態の編集支援装置の機能構成の例について説明する。
[機能構成の例]
図1は第1実施形態の編集支援装置10の機能構成の例を示す図である。第1実施形態の編集支援装置10は、記憶部1、単語取得部2、発話取得部3、抽出部4、推定部5、出力制御部6及び出力部7を備える。
記憶部1は情報を記憶する。記憶部1に記憶される情報は、例えばユーザ辞書及び発話音声集合等である。ユーザ辞書は、ユーザにより単語(追加単語)が追加可能な辞書(発音辞書)である。単語は、少なくとも表記と読みとを含む。発話音声集合は、発話データの集合である。発話データは、少なくとも発話音声を含む。
図2Aは第1実施形態のユーザ辞書の例(日本語の場合)を示す図である。第1実施形態のユーザ辞書は、単語ID、表記及び読みを含む。単語IDは、単語を識別する識別情報である。表記は、単語を表す文字、記号及び数字等である。読みは、単語の発音を示す。図2Aの例では、例えば、単語IDが「1」の単語の表記は「(RDC)」であり、読みは「あーるでぃーしー」である。なお、図2Aに示されるように、単語の表記には、例えば部署名及び会社名等であることを表す()及び[]等が含まれていてもよい。
図2Bは第1実施形態のユーザ辞書の例(英語の場合)を示す図である。第1実施形態のユーザ辞書は、WordID、Surface及びPhoneを含む。WordIDは、単語を識別する識別情報である。Surfaceは、単語を表す文字、記号及び数字等である。Phoneは、単語の発音を示す。図2Bの例では、例えば、WordIDが「1」の単語の表記は「(RDC)」であり、読みは「aerdiisii」である。
図3Aは第1実施形態の発話音声集合の例(日本語の場合)を示す図である。第1実施形態の発話音声集合は、発話ID、文字列情報及び発話音声を含む発話データの集合である。発話IDは、発話を識別する識別情報である。
文字列情報は、単語の認識されやすさを調整する重みが初期値(既定値)に設定された状態で、当該単語の音声認識がされた場合の発話音声の音声認識結果を示す。文字列情報として、音声認識結果が使用されている場合、認識間違いを含む場合がある。音声認識結果に認識間違いが含まれる場合、例えば正しい認識結果を示す単語の重みの設定が変更されることにより、正しい音声認識結果が得られる。なお文字列情報は、発話音声を人手で書き起こすことにより得られてもよい。
発話音声は、発話を表す音声である。図3Aの例では、発話音声として、音声データが関連付けられている。なお発話音声として、音声データそのものではなく、当該音声データを識別する識別情報が関連付けられていてもよい。
例えば、発話IDが「1」の発話データの文字列情報は「最初に、RDCの今年度の目標についてお話します。」であり、発話音声は、「音声データ−1」として記憶されている。発話IDが「1」の発話データは、正しい音声認識結果の例である。
また例えば、発話IDが「2」の発話データの文字列情報は「次に、RTCの来年度の目標についてです。」であり、発話音声は、「音声データ−2」として記憶されている。発話IDが「2」の発話データは、間違いを含む音声認識結果の例である。発話音声では、「RDC」と発音されている箇所が、「RTC」と誤って音声認識されている。
また例えば、発話IDが「3」の発話データの文字列情報は「最後に、ある弟子の今後の予定についてお話します。」であり、発話音声は、「音声データ−3」として記憶されている。発話IDが「3」の発話データは、間違いを含む音声認識結果の例である。発話音声では、「RDC」と発音されている箇所が、「ある弟子」と誤って音声認識されている。日本語の「ある弟子」は、「RDC」と発音が似ているため、このような音声認識誤りが生じる可能性がある。
図3Bは第1実施形態の発話音声集合の例(英語の場合)を示す図である。第1実施形態の発話音声集合は、SpID、String及びSpeechを含む発話データの集合である。SpIDは、発話を識別する識別情報である。
Stringは、単語の認識されやすさを調整する重みが初期値(既定値)に設定された状態で、当該単語の音声認識がされた場合のSpeechの音声認識結果を示す。Stringとして、音声認識結果が使用されている場合、認識間違いを含む場合がある。音声認識結果に認識間違いが含まれる場合、例えば正しい認識結果を示す単語の重みの設定が変更されることにより、正しい音声認識結果が得られる。なおStringは、Speechを人手で書き起こすことにより得られてもよい。
Speechは、発話を表す音声である。図3Bの例では、Speechとして、Speech dataが関連付けられている。なおSpeechとして、Speech dataそのものではなく、当該Speech dataを識別する識別情報が関連付けられていてもよい。
例えば、SpIDが「1」の発話データのStringは「First, I speak about the target in the current year of RDC.」であり、Speechは、「Speech data−1」として記憶されている。SpIDが「1」の発話データは、正しい音声認識結果の例である。
また例えば、SpIDが「2」の発話データのStringは「Next, it is about the target of the next year of RTC.」であり、Speechは、「Speech data−2」として記憶されている。SpIDが「2」の発話データは、間違いを含む音声認識結果の例である。Speechでは、「RDC」と発音されている箇所が、「RTC」と誤って音声認識されている。
また例えば、SpIDが「3」の発話データのStringは「Finally, I speak about the future schedule of a DC」であり、Speechは、「Speech data−3」として記憶されている。SpIDが「3」の発話データは、間違いを含む音声認識結果の例である。Speechでは、「RDC」と発音されている箇所が、「DC」と誤って音声認識されている。
図1に戻り、はじめに、単語取得部2が、記憶部1から単語の表記と読みとを取得する。次に、発話取得部3が、記憶部1から発話音声集合を取得する。
次に、抽出部4が、音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から当該単語に関連する関連発話音声を抽出する。関連発話音声の抽出方法は任意でよい。関連発話音声は、例えば音響的特徴量及び言語的特徴量等を利用して抽出される。
<音響的特徴量を利用する場合>
例えば、抽出部4は、単語の読みを利用して発話音声集合から関連発話音声を抽出する。具体的には、まず、抽出部4は、上述の発話データに含まれる文字列情報の読みを取得する。
文字列情報の読みの取得方法は任意でよい。例えば、記憶部1が、発話音声の音声認識結果として、文字列情報だけでなく、当該文字列情報の読みを示す音素列を含む発話音声集合を記憶しておいてもよい。そして、抽出部4は、発話音声集合に含まれる発話音声を音声認識することにより得られた音素列を取得し、当該音素列に、単語の読みから変換された音素列の一部又は全部を含む発話音声を、関連発話音声として抽出してもよい。
なお、抽出部4は、発話データに含まれる文字列情報(図3A参照)から当該文字列情報の読みを推定することにより、当該文字列情報の読みを取得してもよい。
また例えば、抽出部4は、発話データに含まれる文字列情報の読みと、単語の読みとの編集距離が閾値以下であれば、当該文字列情報に関連付けられた発話音声を、関連発話音声として抽出する。ここで、編集距離の閾値判定により関連発話音声を抽出する例について説明する。
図4Aは第1実施形態の編集距離を利用した関連発話音声の抽出例(日本語の場合)を示す図である。図4Aの例は、ユーザ辞書(図2A参照)の単語IDが「1」である単語「(RDC)」に関連する関連発話音声の抽出例を示す。図4Aの発話IDは、発話音声集合(図3A参照)に記憶された発話データを識別する発話IDに対応する。読みは、発話データに含まれる文字列情報の読みを示す。
編集距離は、発話データに含まれる文字列情報の読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれている場合、当該類似箇所の読みを何文字編集したら当該単語の読みに一致するかを示す。また編集距離は、発話データに含まれる文字列情報の読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれていない場合、当該文字列情報の長さ(文字数)を示す。
例えば、発話IDが「1」の読みに含まれる類似箇所101aは、単語「(RDC)」の読みと一致するため、編集距離は「0」となる。また例えば、発話IDが「2」の読みに含まれる類似箇所102aは、単語「(RDC)」の読みと1文字相違するため、編集距離は「1」となる。また例えば、発話IDが「3」の読みに含まれる類似箇所103aは、単語「(RDC)」の読みと4文字相違するため、編集距離は「4」となる。より具体的には、類似箇所103aの場合では、単語「(RDC)」の読みと比較して、4文字分の読みが不足しているため、編集距離は「4」となる。
発話IDが「4」の発話データに含まれる文字列情報の読みは、単語「(RDC)」の読みと類似する類似箇所を含まないため、編集距離は当該文字列の文字数「26」となる。同様に、発話IDが「5」の発話データに含まれる文字列情報の読みは、単語「(RDC)」の読みと類似する類似箇所を含まないため、編集距離は当該文字列の文字数「28」となる。
図4Aの例では、例えば編集距離の閾値が5である場合、発話IDが「1」〜「3」の発話音声が、単語「(RDC)」の関連発話音声として抽出部4により抽出される。
<言語的特徴量を利用する場合>
また例えば、抽出部4は、発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する。第1実施形態では、発話音声を音声認識することにより得られた音声認識結果は、上述の図3Aの文字列情報である。例えば、抽出部4は、単語IDが「2」の「[総務]」の場合、発話IDが「4」の文字列情報に「総務」が含まれるため、発話IDが「4」の発話音声を関連発話音声として抽出する。
なお、上述の音響的特徴量を利用する場合と同様に、抽出部4は、発話データに関連付けられた文字列情報に含まれる表記と、単語の表記との編集距離が閾値以下である場合、当該文字列情報に関連付けられた発話音声を関連発話音声として抽出してもよい。
また、抽出部4は、上述の音響的特徴量(単語の読み等)と、上述の言語的特徴量(単語の表記等)との両方に基づく関連度を算出し、当該関連度に基づいて関連発話音声を抽出してもよい。関連度は、例えば上述の単語の読みに基づく編集距離、及び、上述の単語の表記に基づく編集距離を使用して、以下の式(1)の関連度Rで定義する。この場合、抽出部4は、関連度Rが、予め設定された閾値以上である発話音声を、関連発話音声として抽出すればよい。
関連度R = α× R_phone + β× R_surface ・・・(1)
ここで、R_phoneは、音響的特徴量(単語の読み等)に基づく関連度とし、R_surfaceは言語的特徴量(単語の表記等)に基づく関連度とし、それぞれ以下の式(2)及び(3)で定義する。
R_phone = 1/(2×音響的特徴量に基づく編集距離) ・・・(2)
R_surface = 1/(2×言語的特徴量に基づく編集距離) ・・・(3)
例えば音響的特徴量に基づく編集距離が1である場合、R_phone=1/2である。また例えば、言語的特徴量に基づく編集距離が2である場合、R_surface=1/4である。ただし、音響的特徴量に基づく編集距離が0の場合は、R_phoneを1とし、同様に、言語的特徴量に基づく編集距離が0の場合は、R_surfaceを1とする。
ここで、上記式(1)のα、βは、関連度Rに対して、それぞれ音響的特徴量と言語的特徴量にどの程度影響与えるかを示す値(0以上)である。例えば、上述の図3Aの文字列情報が、人手で書き起こした文字列の場合、読みよりも表記の方が正しい可能性が高いため、音響的特徴量よりも言語的特徴量の方に関連度Rへの影響が大きくなるように、αとβを設定する(α<β)。一方、上述の図3Aの文字列情報が音声認識結果の場合、表記よりも読み(音素列)の方が正しい可能性が高いため、言語的特徴量よりも音響的特徴量の方に、関連度への影響を大きくなるに、αとβを設定する(α>β)。
図4Bは第1実施形態の編集距離(Edit distance)を利用した関連発話音声の抽出例(英語の場合)を示す図である。図4Bの例は、ユーザ辞書(図2B参照)のWordIDが「1」である単語「(RDC)」に関連する関連発話音声の抽出例を示す。図4BのSpIDは、発話音声集合(図3B参照)に記憶された発話データを識別するSpIDに対応する。読みは、発話データに含まれるStringの読みを示す。
Edit distanceは、発話データに含まれるStringの読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれている場合、当該類似箇所の読みを何文字編集したら当該単語の読みに一致するかを示す。またEdit distanceは、発話データに含まれるStringの読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれていない場合、当該Stringの長さ(文字数)を示す。
例えば、SpIDが「1」の読みに含まれる類似箇所101bは、単語「(RDC)」の読みと一致するため、Edit distanceは「0」となる。また例えば、SpIDが「2」の読みに含まれる類似箇所102bは、単語「(RDC)」の読みと1文字相違するため、Edit distanceは「1」となる。また例えば、SpIDが「3」の読みに含まれる類似箇所103は、単語「(RDC)」の読みと3文字相違するため、Edit distanceは「3」となる。より具体的には、類似箇所103bの場合では、単語「(RDC)」の読みと比較して、3文字分の読みが不足しているため、Edit distanceは「3」となる。
SpIDが「4」の発話データに含まれるStringの読みは、単語「(RDC)」の読みと類似する類似箇所を含まないため、Edit distanceは当該文字列の文字数「50」となる。同様に、SpIDが「5」の発話データに含まれるStringの読みは、単語「(RDC)」の読みと類似する類似箇所を含まないため、Edit distanceは当該文字列の文字数「48」となる。
図4Bの例では、例えばEdit distanceの閾値が5である場合、SpIDが「1」〜「3」の発話音声が、単語「(RDC)」の関連発話音声として抽出部4により抽出される。
<言語的特徴量を利用する場合>
また例えば、抽出部4は、発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する。第1実施形態では、発話音声を音声認識することにより得られた音声認識結果は、上述の図3BのStringである。例えば、抽出部4は、WordIDが「2」の「[Admin Div.]」の場合、SpIDが「4」のStringに「[Admin Div.]」のPhone(図2B参照)が含まれるため、SpIDが「4」の発話音声を関連発話音声として抽出する。
なお、上述の音響的特徴量を利用する場合と同様に、抽出部4は、発話データに関連付けられたStringに含まれる表記と、単語の表記とのEdit distanceが閾値以下である場合、当該Stringに関連付けられた発話音声を関連発話音声として抽出してもよい。
図1に戻り、推定部5は、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する。重みは、例えば大きいほど、単語が認識されやすくなることを示す。
図5Aは第1実施形態の重みと推定認識結果の例(日本語の場合)を示す図である。図5Aの例は、単語IDが「1」の単語「(RDC)」の推定認識結果の例である。発話IDが「1」の発話音声は、重みの設定が「1」の場合、単語「(RDC)」が推定認識結果に含まれることを示す。発話IDが「2」の発話音声は、重みの設定が「2」の場合、単語「(RDC)」が推定認識結果に含まれることを示す。発話IDが「3」の発話音声は、重みの設定が「5」の場合、単語「(RDC)」が推定認識結果に含まれることを示す。
図5Bは第1実施形態の重み(Weight)と推定認識結果(ASR(Automatic Speech Recognition) Result)の例(英語の場合)を示す図である。図5Bの例は、WordIDが「1」の単語「(RDC)」のASR Resultの例である。SpIDが「1」の発話音声は、Weightの設定が「1」の場合、単語「(RDC)」がASR Resultに含まれることを示す。SpIDが「2」の発話音声は、Weightの設定が「2」の場合、単語「(RDC)」がASR Resultに含まれることを示す。SpIDが「3」の発話音声は、Weightの設定が「5」の場合、単語「(RDC)」がASR Resultに含まれることを示す。
推定部5の具体的な処理について説明する。ここでは、推定認識結果を得るための重みを推定する方法として、音声認識処理を利用した推定方法について説明する。まず、推定部5は、抽出部4により発話音声集合から抽出された関連発話音声を取得する。次に、推定部5は、重みを規定の初期値に設定して、関連発話音声の音声認識処理を行うことにより音声認識結果を取得する。
次に、推定部5は、取得された音声認識結果に、認識対象の単語が含まれているか否かを判定する。推定部5は、認識対象の単語が含まれている場合、音声認識結果を推定認識結果として、上述の図5Aのように、単語ID、発話ID及び重みとともに記憶する。推定部5は、認識対象の単語が含まれていない場合、重みを増やし、再度、音声認識処理を行い、音声認識結果に認識対象の単語が含まれているか否かを判定する。推定部5は、音声認識結果に認識対象の単語が含まれるか、又は、重みが予め決められた範囲外になるまで、音声認識処理を繰り返す。
なお、重みの初期値は任意でよい。重みの初期値は、例えば推定認識結果と関連付けられて既に記憶されている重みの平均でもよい。推定認識結果に認識対象の単語が含まれていた場合の重みの平均を初期値に設定することにより、関連発話音声の音声認識処理をより効率的に行うことができる。
また、音声認識結果に認識対象が含まれていない場合の重みの増加量は任意でよい。重みの増加量は、例えば単語の読みと、発話音声の読みに含まれる類似箇所との編集距離に基づいて決定してもよい。推定部5は、例えば編集距離が大きいほど、重みの増加量を増やしてもよい。
図1に戻り、出力制御部6は、ユーザにより設定(指定)された重みに応じて、推定認識結果の出力を制御する。出力部7は、出力制御部6により出力された推定認識結果を出力する。出力部7は、例えば液晶ディスプレイ等により実現される。
図6Aは第1実施形態の推定認識結果を含む出力情報110aの例を示す図である。図6Aの例は、認識対象として、単語「(RDC)」が選択され、重みの設定が「1」である場合を示す。出力情報110aは、単語表示領域111、重み設定インタフェース112及び関連発話表示領域113を含む。関連発話表示領域113は、区切り線114により、上部の表示領域と下部の表示領域とに区切られている。
単語表示領域111には、ユーザ辞書(図2A参照)に記憶されている単語の表記、読み及び重みが表示される。重みは、現在、単語に設定されている設定値が表示される。
重み設定インタフェース112は、重みを設定(指定)するインタフェースである。図6Aの例では、重み設定インタフェース112は、重みを1〜10の範囲で設定可能なスライドバーであり、当該スライドバーにより重みが「1」に設定されている。
なお、重み設定インタフェース112による重みの設定に連動して、単語表示領域111に表示されている重みの設定(実際の設定値)が変更されるようにしてもよい。また、単語表示領域111に表示されている重みの設定(実際の設定値)は、重み設定インタフェース112による重みの設定とは連動させずに、ユーザが別の手段で設定するようにしてもよい。
区切り線114よりも上部の表示領域には、単語「(RDC)」を含む推定認識結果が表示される。図6Aの例では、重み設定インタフェース112により設定された重みが「1」であるため、発話IDが「1」の発話音声の推定認識結果が、区切り線114の上部の表示領域に表示されている。
一方、区切り線114よりも下部の表示領域には、単語「(RDC)」を含まない推定認識結果が表示される。図6Aの例では、重み設定インタフェース112により設定された重みが「1」であるため、発話IDが「2」及び「3」の発話音声の推定認識結果が、区切り線114の下部の表示領域に表示されている。
なお、重み設定インタフェース112による重み設定のユーザ支援として、設定された重みで音声認識がなされた場合に、認識対象の単語を含む推定認識結果の表示件数を表示する領域を出力情報110aに設けてもよい。
関連発話表示領域113に表示される情報は、単語表示領域111で選択された単語と、重み設定インタフェース112で設定(指定)された重みとに応じて変更される。例えば、関連発話表示領域113に表示されている類似箇所115aは、重み設定インタフェース112による重み設定を「2」以上に設定することにより、単語「(RDC)」として表示される(図6B参照)。
図6Bは第1実施形態の推定認識結果を含む出力情報110bの例を示す図である。図6Bの例は、認識対象として、単語「(RDC)」が選択され、重みの設定が「2」である場合を示す。出力情報110bは、単語表示領域111、重み設定インタフェース112及び関連発話表示領域113を含む。関連発話表示領域113は、区切り線114により、上部の表示領域と下部の表示領域に区切られている。
単語表示領域111の説明は、図6Aと同じなので省略する。
重み設定インタフェース112は、重みを設定するインタフェースである。図6Bの例では、重み設定インタフェース112は、重みを1〜10の範囲で設定可能なスライドバーであり、当該スライドバーにより重みが「2」に設定されている。
区切り線114よりも上部の表示領域には、単語「(RDC)」を含む推定認識結果が表示される。図6Bの例では、重み設定インタフェース112により設定された重みが「2」であるため、発話IDが「1」及び「2」の発話音声の推定認識結果が、区切り線114の上部の表示領域に表示されている。特に、発話IDが「2」の発話音声の類似箇所115a(図6A参照)が、単語「(RDC)」として認識された箇所115bに変更されている。また、発話IDが「2」の発話音声の推定認識結果の表示位置が、区切り線114の下部の表示領域から上部の表示領域に変更されている。
一方、区切り線114よりも下部の表示領域には、単語「(RDC)」を含まない推定認識結果が表示される。図6Bの例では、重み設定インタフェース112により設定された重みが「2」であるため、発話IDが「3」の発話音声の推定認識結果が、区切り線114の下部の表示領域に表示されている。
なお、図6Bの例では、重み設定インタフェース112による重み設定のユーザ支援として、設定された重みで音声認識がなされたときに、認識対象の単語を含む推定認識結果の表示件数を表示する場合の例も示している。図6Bの例では、重み設定インタフェース112の下部に、認識対象の単語を含む推定認識結果の表示件数を表示する領域が設けられている。図6Bの例では、例えば単語「(RDC)」の重みが5に設定された場合、単語「(RDC)」を含む推定認識結果の表示件数が20件であることが示されている。
ここで、上述の図6Aの出力情報110a、及び、上述の図6Bの出力情報110bの出力制御を可能にする出力制御部6の具体的な動作例について説明する。出力制御部6は、ユーザにより、単語表示領域111の単語が選択され、重み設定インタフェース112で重みが設定されると、以下の処理を行う。
まず、出力制御部6は、ユーザにより選択された単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果と、当該推定認識結果の認識元データである発話音声の発話IDとの組(図5A参照)を取得する。次に、出力制御部6は、ユーザにより設定された重みと、取得された推定認識結果に関連付けられた重みとを比較する。
出力制御部6は、ユーザにより設定された重みが、取得された推定認識結果に関連付けられた重み以上の場合、ユーザにより選択された単語を含む推定認識結果(第1の推定認識結果)として、当該推定認識結果(図5A参照)を関連発話表示領域113の区切り線114より上部の表示領域に表示する。
一方、出力制御部6は、ユーザにより設定された重みが、取得された推定認識結果に関連付けられた重みより小さい場合、ユーザにより選択された単語を含まない推定認識結果(第2の推定認識結果)として、取得された発話IDに関連付けられた文字列情報(図3A参照)を、関連発話表示領域113の区切り線114より下部の表示領域に表示する。
次に、フローチャートを参照して、第1実施形態の編集支援方法の例について説明する。
[編集支援方法]
図7は第1実施形態の編集支援方法の例を示すフローチャートである。はじめに、単語取得部2が、記憶部1から単語の表記と読みとを取得する(ステップS1)。次に、発話取得部3が、記憶部1から発話音声集合を取得する(ステップS2)。
次に、抽出部4が、ステップS1の処理により取得された単語の表記及び読みの少なくとも一方に基づいて、ステップS2の処理により取得された発話音声集合から当該単語に関連する関連発話音声を抽出する(ステップS3)。
次に、推定部5が、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する(ステップS4)。
次に、出力制御部6が、ユーザにより設定(指定)された重みに応じて、推定認識結果の出力を制御する(ステップS5)。
以上説明したように、第1実施形態の編集支援装置10では、抽出部4が、音声認識に使用される辞書(第1実施形態ではユーザ辞書)に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から当該単語に関連する関連発話音声を抽出する。推定部5が、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する。そして、出力制御部6が、設定された重みに応じて、推定認識結果の出力を制御する。
これにより第1実施形態の編集支援装置10によれば、辞書に追加された単語による音声認識結果の影響範囲を具体的に把握することができる。例えば、辞書に追加された単語は、音声認識の結果に悪影響を及ぼす可能性もあるが、第1実施形態の編集支援装置10によれば、辞書に追加された単語が音声認識の結果に与える影響を、単語の認識されやすさを調整する重みを変えながら、具体的に把握することができる。これにより、例えばユーザがユーザ辞書を効率的に編集でき、音声認識時にユーザが望む認識結果を低コストで取得することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図8は第2実施形態の編集支援装置10−2の機能構成の例を示す図である。第2実施形態の編集支援装置10−2は、記憶部1、単語取得部2、発話取得部3、抽出部4、推定部5、出力制御部6−2、出力部7及び算出部8を備える。すなわち、第2実施形態の編集支援装置10−2は、第1実施形態の編集支援装置10の構成に更に算出部8が追加されている。また、第2実施形態の編集支援装置10−2では、出力制御部6−2の動作が第1実施形態の動作から変更されている。
算出部8は、既にユーザにより設定(決定)された単語の重みに基づいて、まだユーザにより重みが設定されていない単語の重みの推奨値を算出する。具体的には、まず算出部8は、ユーザによる認識許容値を下記式(4)により算出する。
(認識許容値)=(認識対象の単語を含む音声認識結果の数)/(認識対象の単語の関連発話音声の数) ・・・(4)
ここで、認識許容値の具体例について説明する。例えば単語IDが「1」の単語「(RDC)」の関連発話音声の数は3つである(図4A参照)。このとき、単語「(RDC)」の重みが、ユーザにより例えば「2」に設定されると、単語「(RDC)」を含む音声認識結果(第1の推定認識結果)の数は2つとなる(図5A及び6B参照)。したがって、単語「(RDC)」の認識許容値(第1の認識許容値)は2/3となる。
次に、算出部8は、既に重みが設定された単語(第1の単語)の認識許容値の平均値である平均認識許容値を算出する。そして、算出部8は、平均認識許容値から、まだユーザにより重みが設定されていない単語(第2の単語)の重みの推奨値を算出する。具体的には、算出部8は、まだ重みが設定されていない単語の認識許容値(第2の認識許容値)が、平均認識許容値以上となる重みにより、当該単語の重みの推奨値を算出する。
出力制御部6−2は、算出部8により算出された推奨値を、例えば上述の単語表示領域111に含む出力情報110a(110b)を出力部7に出力する。なお、出力情報110a(110b)は、算出部8により算出された推奨値を、まだ重みが設定されていない単語の重みに一括で設定するボタン等のユーザインタフェース等を含んでいてもよい。
以上、説明したように、第2実施形態の編集支援装置10−2では、出力制御部6−2が、算出部8により算出された推奨値を出力部7に出力する。これにより第2実施形態の編集支援装置10−2によれば、第1実施形態と同様の効果を得ることができるとともに、ユーザはより効率的に、音声認識に使用される辞書に追加された単語の重みを設定することができる。すなわち、第2実施形態の編集支援装置10−2によれば、ユーザは、所望の音声認識結果を従来よりも容易に(より低コストで)得ることができる。
最後に、第1実施形態の編集支援装置10のハードウェア構成の例について説明する。なお第2実施形態の編集支援装置10−2のハードウェア構成の例の説明についても、第1実施形態の編集支援装置10のハードウェア構成の説明と同じである。
[ハードウェア構成の例]
図9は第1実施形態の編集支援装置10のハードウェア構成の例を示す図である。第1実施形態の編集支援装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
制御装置301は補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。制御装置301は、例えばCPU等の1以上のプロセッサである。主記憶装置302はROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303はメモリカード、及び、HDD(Hard Disk Drive)等である。
表示装置304は情報を表示する。表示装置304は、例えば液晶ディスプレイである。上述の出力部7は、例えば表示装置304により実現される。入力装置305は、情報の入力を受け付ける。入力装置305は、例えばキーボード及びマウス等である。なお表示装置304及び入力装置305は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置306は他の装置と通信する。
第1実施形態の編集支援装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R、及び、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。
また第1実施形態の編集支援装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1実施形態の編集支援装置10が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また第1実施形態の編集支援装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
第1実施形態の編集支援装置10で実行されるプログラムは、第1実施形態の編集支援装置10の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。
プログラムにより実現される機能は、制御装置301が補助記憶装置303等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置302にロードされる。すなわちプログラムにより実現される機能は、主記憶装置302上に生成される。
なお第1実施形態の編集支援装置10の機能の一部を、IC(Integrated Circuit)等のハードウェアにより実現してもよい。ICは、例えば専用の処理を実行するプロセッサである。
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
また第1実施形態の編集支援装置10の動作形態は任意でよい。第1実施形態の編集支援装置10を、例えばネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 記憶部
2 単語取得部
3 発話取得部
4 抽出部
5 推定部
6 出力制御部
7 出力部
8 算出部
10 編集支援装置
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス

Claims (8)

  1. 音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する抽出部と、
    前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する推定部と、
    設定された前記重みに応じて、前記推定認識結果の出力を制御する出力制御部と、
    を備える編集支援装置。
  2. 前記抽出部は、前記発話音声集合に含まれる発話音声を音声認識することにより得られた音素列を取得し、前記音素列に、前記単語の読みから変換された音素列の一部又は全部を含む発話音声を、関連発話音声として抽出する、
    請求項1に記載の編集支援装置。
  3. 前記抽出部は、前記発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、前記単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する、
    請求項1に記載の編集支援装置。
  4. 前記出力制御部は、前記単語を含む第1の推定認識結果と、前記単語を含まない第2の推定認識結果とが区別された出力情報を出力部に出力することにより、前記推定認識結果の出力を制御する、
    請求項1に記載の編集支援装置。
  5. 既にユーザにより設定された第1の単語の重みに基づいて、まだユーザにより重みが設定されていない第2の単語の重みの推奨値を算出する算出部を更に備え、
    前記出力制御部は、前記推奨値の出力を更に制御する、
    請求項4に記載の編集支援装置。
  6. 前記算出部は、前記第1の単語について、前記第1の推定認識結果の数を前記関連発話音声の数で除算した第1の認識許容値を算出し、前記第2の単語の重みの推奨値として、前記第2の単語の第2の認識許容値が、前記第1の認識許容値の平均値以上になる重みを算出する、
    請求項5に記載の編集支援装置。
  7. 音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出するステップと、
    前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定するステップと、
    設定された前記重みに応じて、前記推定認識結果の出力を制御するステップと、
    を含む編集支援方法。
  8. コンピュータを、
    音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する抽出部と、
    前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する推定部と、
    設定された前記重みに応じて、前記推定認識結果の出力を制御する出力制御部、
    として機能させるためのプログラム。
JP2018018642A 2018-02-05 2018-02-05 編集支援装置、編集支援方法及びプログラム Active JP6790003B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018018642A JP6790003B2 (ja) 2018-02-05 2018-02-05 編集支援装置、編集支援方法及びプログラム
CN201810918988.8A CN110136720B (zh) 2018-02-05 2018-08-14 编辑支援装置、编辑支援方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018018642A JP6790003B2 (ja) 2018-02-05 2018-02-05 編集支援装置、編集支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019135529A JP2019135529A (ja) 2019-08-15
JP6790003B2 true JP6790003B2 (ja) 2020-11-25

Family

ID=67568258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018018642A Active JP6790003B2 (ja) 2018-02-05 2018-02-05 編集支援装置、編集支援方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6790003B2 (ja)
CN (1) CN110136720B (ja)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
US8719021B2 (en) * 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP2011107251A (ja) * 2009-11-13 2011-06-02 Ntt Docomo Inc 音声認識装置、言語モデル生成装置および音声認識方法
JP2011170087A (ja) * 2010-02-18 2011-09-01 Fujitsu Ltd 音声認識装置
JP5694102B2 (ja) * 2011-09-22 2015-04-01 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN103177721B (zh) * 2011-12-26 2015-08-19 中国电信股份有限公司 语音识别方法和系统
JP5546565B2 (ja) * 2012-02-22 2014-07-09 日本電信電話株式会社 単語追加装置、単語追加方法、およびプログラム
JP5713963B2 (ja) * 2012-06-18 2015-05-07 日本電信電話株式会社 音声認識単語追加装置とその方法とプログラム
JP6107003B2 (ja) * 2012-09-05 2017-04-05 日本電気株式会社 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム
JP6327848B2 (ja) * 2013-12-20 2018-05-23 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
JP6453631B2 (ja) * 2014-11-28 2019-01-16 株式会社東芝 認識システム、認識方法およびプログラム

Also Published As

Publication number Publication date
CN110136720A (zh) 2019-08-16
JP2019135529A (ja) 2019-08-15
CN110136720B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
US7962341B2 (en) Method and apparatus for labelling speech
JP3232289B2 (ja) 記号挿入装置およびその方法
EP1662482B1 (en) Method for generic mnemonic spelling
US8577679B2 (en) Symbol insertion apparatus and symbol insertion method
US20050165602A1 (en) System and method for accented modification of a language model
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
WO2007006769A1 (en) System, program, and control method for speech synthesis
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JPWO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
US9460718B2 (en) Text generator, text generating method, and computer program product
JP2008046538A (ja) テキスト音声合成を支援するシステム
WO2011036769A1 (ja) 翻訳装置、及びプログラム
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
JP4859125B2 (ja) 発音評定装置、およびプログラム
JP6790003B2 (ja) 編集支援装置、編集支援方法及びプログラム
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
CN110580905A (zh) 识别装置及方法
US20240005906A1 (en) Information processing device, information processing method, and information processing computer program product
JP7195593B2 (ja) 語学学習用装置および語学学習用プログラム
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6567372B2 (ja) 編集支援装置、編集支援方法及びプログラム
JPS62223798A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201104

R151 Written notification of patent or utility model registration

Ref document number: 6790003

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151