JP6790003B2

JP6790003B2 - 編集支援装置、編集支援方法及びプログラム

Info

Publication number: JP6790003B2
Application number: JP2018018642A
Authority: JP
Inventors: 平芦川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2020-11-25
Anticipated expiration: 2038-02-05
Also published as: JP2019135529A; CN110136720A; CN110136720B

Description

本発明の実施形態は編集支援装置、編集支援方法及びプログラムに関する。

入力された音声を文字列に変換する音声認識技術が従来から知られている。一般に、音声認識処理では、以下の処理（１）〜（４）が行われている。（１）入力された音声から音響特徴量が算出される。（２）音響モデルを用いて、音響特徴量がサブワード（音素）へと変換される。（３）発音辞書を用いて、サブワードが単語へ変換される。（４）言語モデルを用いて、単語間のつながりが尤も確からしい遷移系列が決定される。

特開２０１６−１０２９４７号公報特許第５７１３９６３号公報特許第５５４６５６５号公報

しかしながら、従来の技術では、発音辞書に追加された単語による音声認識結果の影響範囲を具体的に把握することが難しかった。

実施形態の編集支援装置は、抽出部と推定部と出力制御部とを備える。抽出部は、音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する。推定部は、前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する。出力制御部は、設定された前記重みに応じて、前記推定認識結果の出力を制御する。

第１実施形態の編集支援装置の機能構成の例を示す図。第１実施形態のユーザ辞書の例（日本語の場合）を示す図。第１実施形態のユーザ辞書の例（英語の場合）を示す図。第１実施形態の発話音声集合の例（日本語の場合）を示す図。第１実施形態の発話音声集合の例（英語の場合）を示す図。第１実施形態の編集距離を利用した関連発話音声の抽出例（日本語の場合）を示す図。第１実施形態の編集距離を利用した関連発話音声の抽出例（英語の場合）を示す図。第１実施形態の重みと推定認識結果の例（日本語の場合）を示す図。第１実施形態の重みと推定認識結果の例（英語の場合）を示す図。第１実施形態の推定認識結果を含む出力情報の例を示す図。第１実施形態の推定認識結果を含む出力情報の例を示す図。第１実施形態の編集支援方法の例を示すフローチャート。第２実施形態の編集支援装置の機能構成の例を示す図。第１実施形態の編集支援装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、編集支援装置、編集支援方法及びプログラムの実施形態を詳細に説明する。

（第１実施形態）
第１実施形態の編集支援装置は、例えば音声認識に使用される辞書を編集可能な音声認識システムで使用される。はじめに、第１実施形態の編集支援装置の機能構成の例について説明する。

［機能構成の例］
図１は第１実施形態の編集支援装置１０の機能構成の例を示す図である。第１実施形態の編集支援装置１０は、記憶部１、単語取得部２、発話取得部３、抽出部４、推定部５、出力制御部６及び出力部７を備える。

記憶部１は情報を記憶する。記憶部１に記憶される情報は、例えばユーザ辞書及び発話音声集合等である。ユーザ辞書は、ユーザにより単語（追加単語）が追加可能な辞書（発音辞書）である。単語は、少なくとも表記と読みとを含む。発話音声集合は、発話データの集合である。発話データは、少なくとも発話音声を含む。

図２Ａは第１実施形態のユーザ辞書の例（日本語の場合）を示す図である。第１実施形態のユーザ辞書は、単語ＩＤ、表記及び読みを含む。単語ＩＤは、単語を識別する識別情報である。表記は、単語を表す文字、記号及び数字等である。読みは、単語の発音を示す。図２Ａの例では、例えば、単語ＩＤが「１」の単語の表記は「（ＲＤＣ）」であり、読みは「あーるでぃーしー」である。なお、図２Ａに示されるように、単語の表記には、例えば部署名及び会社名等であることを表す（）及び［］等が含まれていてもよい。

図２Ｂは第１実施形態のユーザ辞書の例（英語の場合）を示す図である。第１実施形態のユーザ辞書は、ＷｏｒｄＩＤ、Ｓｕｒｆａｃｅ及びＰｈｏｎｅを含む。ＷｏｒｄＩＤは、単語を識別する識別情報である。Ｓｕｒｆａｃｅは、単語を表す文字、記号及び数字等である。Ｐｈｏｎｅは、単語の発音を示す。図２Ｂの例では、例えば、ＷｏｒｄＩＤが「１」の単語の表記は「（ＲＤＣ）」であり、読みは「ａｅｒｄｉｉｓｉｉ」である。

図３Ａは第１実施形態の発話音声集合の例（日本語の場合）を示す図である。第１実施形態の発話音声集合は、発話ＩＤ、文字列情報及び発話音声を含む発話データの集合である。発話ＩＤは、発話を識別する識別情報である。

文字列情報は、単語の認識されやすさを調整する重みが初期値（既定値）に設定された状態で、当該単語の音声認識がされた場合の発話音声の音声認識結果を示す。文字列情報として、音声認識結果が使用されている場合、認識間違いを含む場合がある。音声認識結果に認識間違いが含まれる場合、例えば正しい認識結果を示す単語の重みの設定が変更されることにより、正しい音声認識結果が得られる。なお文字列情報は、発話音声を人手で書き起こすことにより得られてもよい。

発話音声は、発話を表す音声である。図３Ａの例では、発話音声として、音声データが関連付けられている。なお発話音声として、音声データそのものではなく、当該音声データを識別する識別情報が関連付けられていてもよい。

例えば、発話ＩＤが「１」の発話データの文字列情報は「最初に、ＲＤＣの今年度の目標についてお話します。」であり、発話音声は、「音声データ−１」として記憶されている。発話ＩＤが「１」の発話データは、正しい音声認識結果の例である。

また例えば、発話ＩＤが「２」の発話データの文字列情報は「次に、ＲＴＣの来年度の目標についてです。」であり、発話音声は、「音声データ−２」として記憶されている。発話ＩＤが「２」の発話データは、間違いを含む音声認識結果の例である。発話音声では、「ＲＤＣ」と発音されている箇所が、「ＲＴＣ」と誤って音声認識されている。

また例えば、発話ＩＤが「３」の発話データの文字列情報は「最後に、ある弟子の今後の予定についてお話します。」であり、発話音声は、「音声データ−３」として記憶されている。発話ＩＤが「３」の発話データは、間違いを含む音声認識結果の例である。発話音声では、「ＲＤＣ」と発音されている箇所が、「ある弟子」と誤って音声認識されている。日本語の「ある弟子」は、「ＲＤＣ」と発音が似ているため、このような音声認識誤りが生じる可能性がある。

図３Ｂは第１実施形態の発話音声集合の例（英語の場合）を示す図である。第１実施形態の発話音声集合は、ＳｐＩＤ、Ｓｔｒｉｎｇ及びＳｐｅｅｃｈを含む発話データの集合である。ＳｐＩＤは、発話を識別する識別情報である。

Ｓｔｒｉｎｇは、単語の認識されやすさを調整する重みが初期値（既定値）に設定された状態で、当該単語の音声認識がされた場合のＳｐｅｅｃｈの音声認識結果を示す。Ｓｔｒｉｎｇとして、音声認識結果が使用されている場合、認識間違いを含む場合がある。音声認識結果に認識間違いが含まれる場合、例えば正しい認識結果を示す単語の重みの設定が変更されることにより、正しい音声認識結果が得られる。なおＳｔｒｉｎｇは、Ｓｐｅｅｃｈを人手で書き起こすことにより得られてもよい。

Ｓｐｅｅｃｈは、発話を表す音声である。図３Ｂの例では、Ｓｐｅｅｃｈとして、Ｓｐｅｅｃｈｄａｔａが関連付けられている。なおＳｐｅｅｃｈとして、Ｓｐｅｅｃｈｄａｔａそのものではなく、当該Ｓｐｅｅｃｈｄａｔａを識別する識別情報が関連付けられていてもよい。

例えば、ＳｐＩＤが「１」の発話データのＳｔｒｉｎｇは「Ｆｉｒｓｔ，ＩｓｐｅａｋａｂｏｕｔｔｈｅｔａｒｇｅｔｉｎｔｈｅｃｕｒｒｅｎｔｙｅａｒｏｆＲＤＣ．」であり、Ｓｐｅｅｃｈは、「Ｓｐｅｅｃｈｄａｔａ−１」として記憶されている。ＳｐＩＤが「１」の発話データは、正しい音声認識結果の例である。

また例えば、ＳｐＩＤが「２」の発話データのＳｔｒｉｎｇは「Ｎｅｘｔ，ｉｔｉｓａｂｏｕｔｔｈｅｔａｒｇｅｔｏｆｔｈｅｎｅｘｔｙｅａｒｏｆＲＴＣ．」であり、Ｓｐｅｅｃｈは、「Ｓｐｅｅｃｈｄａｔａ−２」として記憶されている。ＳｐＩＤが「２」の発話データは、間違いを含む音声認識結果の例である。Ｓｐｅｅｃｈでは、「ＲＤＣ」と発音されている箇所が、「ＲＴＣ」と誤って音声認識されている。

また例えば、ＳｐＩＤが「３」の発話データのＳｔｒｉｎｇは「Ｆｉｎａｌｌｙ，ＩｓｐｅａｋａｂｏｕｔｔｈｅｆｕｔｕｒｅｓｃｈｅｄｕｌｅｏｆａＤＣ」であり、Ｓｐｅｅｃｈは、「Ｓｐｅｅｃｈｄａｔａ−３」として記憶されている。ＳｐＩＤが「３」の発話データは、間違いを含む音声認識結果の例である。Ｓｐｅｅｃｈでは、「ＲＤＣ」と発音されている箇所が、「ＤＣ」と誤って音声認識されている。

図１に戻り、はじめに、単語取得部２が、記憶部１から単語の表記と読みとを取得する。次に、発話取得部３が、記憶部１から発話音声集合を取得する。

次に、抽出部４が、音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から当該単語に関連する関連発話音声を抽出する。関連発話音声の抽出方法は任意でよい。関連発話音声は、例えば音響的特徴量及び言語的特徴量等を利用して抽出される。

＜音響的特徴量を利用する場合＞
例えば、抽出部４は、単語の読みを利用して発話音声集合から関連発話音声を抽出する。具体的には、まず、抽出部４は、上述の発話データに含まれる文字列情報の読みを取得する。

文字列情報の読みの取得方法は任意でよい。例えば、記憶部１が、発話音声の音声認識結果として、文字列情報だけでなく、当該文字列情報の読みを示す音素列を含む発話音声集合を記憶しておいてもよい。そして、抽出部４は、発話音声集合に含まれる発話音声を音声認識することにより得られた音素列を取得し、当該音素列に、単語の読みから変換された音素列の一部又は全部を含む発話音声を、関連発話音声として抽出してもよい。

なお、抽出部４は、発話データに含まれる文字列情報（図３Ａ参照）から当該文字列情報の読みを推定することにより、当該文字列情報の読みを取得してもよい。

また例えば、抽出部４は、発話データに含まれる文字列情報の読みと、単語の読みとの編集距離が閾値以下であれば、当該文字列情報に関連付けられた発話音声を、関連発話音声として抽出する。ここで、編集距離の閾値判定により関連発話音声を抽出する例について説明する。

図４Ａは第１実施形態の編集距離を利用した関連発話音声の抽出例（日本語の場合）を示す図である。図４Ａの例は、ユーザ辞書（図２Ａ参照）の単語ＩＤが「１」である単語「（ＲＤＣ）」に関連する関連発話音声の抽出例を示す。図４Ａの発話ＩＤは、発話音声集合（図３Ａ参照）に記憶された発話データを識別する発話ＩＤに対応する。読みは、発話データに含まれる文字列情報の読みを示す。

編集距離は、発話データに含まれる文字列情報の読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれている場合、当該類似箇所の読みを何文字編集したら当該単語の読みに一致するかを示す。また編集距離は、発話データに含まれる文字列情報の読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれていない場合、当該文字列情報の長さ（文字数）を示す。

例えば、発話ＩＤが「１」の読みに含まれる類似箇所１０１ａは、単語「（ＲＤＣ）」の読みと一致するため、編集距離は「０」となる。また例えば、発話ＩＤが「２」の読みに含まれる類似箇所１０２ａは、単語「（ＲＤＣ）」の読みと１文字相違するため、編集距離は「１」となる。また例えば、発話ＩＤが「３」の読みに含まれる類似箇所１０３ａは、単語「（ＲＤＣ）」の読みと４文字相違するため、編集距離は「４」となる。より具体的には、類似箇所１０３ａの場合では、単語「（ＲＤＣ）」の読みと比較して、４文字分の読みが不足しているため、編集距離は「４」となる。

発話ＩＤが「４」の発話データに含まれる文字列情報の読みは、単語「（ＲＤＣ）」の読みと類似する類似箇所を含まないため、編集距離は当該文字列の文字数「２６」となる。同様に、発話ＩＤが「５」の発話データに含まれる文字列情報の読みは、単語「（ＲＤＣ）」の読みと類似する類似箇所を含まないため、編集距離は当該文字列の文字数「２８」となる。

図４Ａの例では、例えば編集距離の閾値が５である場合、発話ＩＤが「１」〜「３」の発話音声が、単語「（ＲＤＣ）」の関連発話音声として抽出部４により抽出される。

＜言語的特徴量を利用する場合＞
また例えば、抽出部４は、発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する。第１実施形態では、発話音声を音声認識することにより得られた音声認識結果は、上述の図３Ａの文字列情報である。例えば、抽出部４は、単語ＩＤが「２」の「［総務］」の場合、発話ＩＤが「４」の文字列情報に「総務」が含まれるため、発話ＩＤが「４」の発話音声を関連発話音声として抽出する。

なお、上述の音響的特徴量を利用する場合と同様に、抽出部４は、発話データに関連付けられた文字列情報に含まれる表記と、単語の表記との編集距離が閾値以下である場合、当該文字列情報に関連付けられた発話音声を関連発話音声として抽出してもよい。

また、抽出部４は、上述の音響的特徴量（単語の読み等）と、上述の言語的特徴量（単語の表記等）との両方に基づく関連度を算出し、当該関連度に基づいて関連発話音声を抽出してもよい。関連度は、例えば上述の単語の読みに基づく編集距離、及び、上述の単語の表記に基づく編集距離を使用して、以下の式（１）の関連度Ｒで定義する。この場合、抽出部４は、関連度Ｒが、予め設定された閾値以上である発話音声を、関連発話音声として抽出すればよい。

関連度Ｒ＝ α× Ｒ＿ｐｈｏｎｅ＋ β× Ｒ＿ｓｕｒｆａｃｅ・・・（１）

ここで、Ｒ＿ｐｈｏｎｅは、音響的特徴量（単語の読み等）に基づく関連度とし、Ｒ＿ｓｕｒｆａｃｅは言語的特徴量（単語の表記等）に基づく関連度とし、それぞれ以下の式（２）及び（３）で定義する。

Ｒ＿ｐｈｏｎｅ＝１／（２×音響的特徴量に基づく編集距離）・・・（２）
Ｒ＿ｓｕｒｆａｃｅ＝１／（２×言語的特徴量に基づく編集距離）・・・（３）

例えば音響的特徴量に基づく編集距離が１である場合、Ｒ＿ｐｈｏｎｅ＝１／２である。また例えば、言語的特徴量に基づく編集距離が２である場合、Ｒ＿ｓｕｒｆａｃｅ＝１／４である。ただし、音響的特徴量に基づく編集距離が０の場合は、Ｒ＿ｐｈｏｎｅを１とし、同様に、言語的特徴量に基づく編集距離が０の場合は、Ｒ＿ｓｕｒｆａｃｅを１とする。

ここで、上記式（１）のα、βは、関連度Ｒに対して、それぞれ音響的特徴量と言語的特徴量にどの程度影響与えるかを示す値（０以上）である。例えば、上述の図３Ａの文字列情報が、人手で書き起こした文字列の場合、読みよりも表記の方が正しい可能性が高いため、音響的特徴量よりも言語的特徴量の方に関連度Ｒへの影響が大きくなるように、αとβを設定する（α＜β）。一方、上述の図３Ａの文字列情報が音声認識結果の場合、表記よりも読み（音素列）の方が正しい可能性が高いため、言語的特徴量よりも音響的特徴量の方に、関連度への影響を大きくなるに、αとβを設定する（α＞β）。

図４Ｂは第１実施形態の編集距離（Ｅｄｉｔｄｉｓｔａｎｃｅ）を利用した関連発話音声の抽出例（英語の場合）を示す図である。図４Ｂの例は、ユーザ辞書（図２Ｂ参照）のＷｏｒｄＩＤが「１」である単語「（ＲＤＣ）」に関連する関連発話音声の抽出例を示す。図４ＢのＳｐＩＤは、発話音声集合（図３Ｂ参照）に記憶された発話データを識別するＳｐＩＤに対応する。読みは、発話データに含まれるＳｔｒｉｎｇの読みを示す。

Ｅｄｉｔｄｉｓｔａｎｃｅは、発話データに含まれるＳｔｒｉｎｇの読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれている場合、当該類似箇所の読みを何文字編集したら当該単語の読みに一致するかを示す。またＥｄｉｔｄｉｓｔａｎｃｅは、発話データに含まれるＳｔｒｉｎｇの読みに、ユーザ辞書の単語の読みと類似する類似箇所が含まれていない場合、当該Ｓｔｒｉｎｇの長さ（文字数）を示す。

例えば、ＳｐＩＤが「１」の読みに含まれる類似箇所１０１ｂは、単語「（ＲＤＣ）」の読みと一致するため、Ｅｄｉｔｄｉｓｔａｎｃｅは「０」となる。また例えば、ＳｐＩＤが「２」の読みに含まれる類似箇所１０２ｂは、単語「（ＲＤＣ）」の読みと１文字相違するため、Ｅｄｉｔｄｉｓｔａｎｃｅは「１」となる。また例えば、ＳｐＩＤが「３」の読みに含まれる類似箇所１０３は、単語「（ＲＤＣ）」の読みと３文字相違するため、Ｅｄｉｔｄｉｓｔａｎｃｅは「３」となる。より具体的には、類似箇所１０３ｂの場合では、単語「（ＲＤＣ）」の読みと比較して、３文字分の読みが不足しているため、Ｅｄｉｔｄｉｓｔａｎｃｅは「３」となる。

ＳｐＩＤが「４」の発話データに含まれるＳｔｒｉｎｇの読みは、単語「（ＲＤＣ）」の読みと類似する類似箇所を含まないため、Ｅｄｉｔｄｉｓｔａｎｃｅは当該文字列の文字数「５０」となる。同様に、ＳｐＩＤが「５」の発話データに含まれるＳｔｒｉｎｇの読みは、単語「（ＲＤＣ）」の読みと類似する類似箇所を含まないため、Ｅｄｉｔｄｉｓｔａｎｃｅは当該文字列の文字数「４８」となる。

図４Ｂの例では、例えばＥｄｉｔｄｉｓｔａｎｃｅの閾値が５である場合、ＳｐＩＤが「１」〜「３」の発話音声が、単語「（ＲＤＣ）」の関連発話音声として抽出部４により抽出される。

＜言語的特徴量を利用する場合＞
また例えば、抽出部４は、発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する。第１実施形態では、発話音声を音声認識することにより得られた音声認識結果は、上述の図３ＢのＳｔｒｉｎｇである。例えば、抽出部４は、ＷｏｒｄＩＤが「２」の「［ＡｄｍｉｎＤｉｖ．］」の場合、ＳｐＩＤが「４」のＳｔｒｉｎｇに「［ＡｄｍｉｎＤｉｖ．］」のＰｈｏｎｅ（図２Ｂ参照）が含まれるため、ＳｐＩＤが「４」の発話音声を関連発話音声として抽出する。

なお、上述の音響的特徴量を利用する場合と同様に、抽出部４は、発話データに関連付けられたＳｔｒｉｎｇに含まれる表記と、単語の表記とのＥｄｉｔｄｉｓｔａｎｃｅが閾値以下である場合、当該Ｓｔｒｉｎｇに関連付けられた発話音声を関連発話音声として抽出してもよい。

図１に戻り、推定部５は、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する。重みは、例えば大きいほど、単語が認識されやすくなることを示す。

図５Ａは第１実施形態の重みと推定認識結果の例（日本語の場合）を示す図である。図５Ａの例は、単語ＩＤが「１」の単語「（ＲＤＣ）」の推定認識結果の例である。発話ＩＤが「１」の発話音声は、重みの設定が「１」の場合、単語「（ＲＤＣ）」が推定認識結果に含まれることを示す。発話ＩＤが「２」の発話音声は、重みの設定が「２」の場合、単語「（ＲＤＣ）」が推定認識結果に含まれることを示す。発話ＩＤが「３」の発話音声は、重みの設定が「５」の場合、単語「（ＲＤＣ）」が推定認識結果に含まれることを示す。

図５Ｂは第１実施形態の重み（Ｗｅｉｇｈｔ）と推定認識結果（ＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）Ｒｅｓｕｌｔ）の例（英語の場合）を示す図である。図５Ｂの例は、ＷｏｒｄＩＤが「１」の単語「（ＲＤＣ）」のＡＳＲＲｅｓｕｌｔの例である。ＳｐＩＤが「１」の発話音声は、Ｗｅｉｇｈｔの設定が「１」の場合、単語「（ＲＤＣ）」がＡＳＲＲｅｓｕｌｔに含まれることを示す。ＳｐＩＤが「２」の発話音声は、Ｗｅｉｇｈｔの設定が「２」の場合、単語「（ＲＤＣ）」がＡＳＲＲｅｓｕｌｔに含まれることを示す。ＳｐＩＤが「３」の発話音声は、Ｗｅｉｇｈｔの設定が「５」の場合、単語「（ＲＤＣ）」がＡＳＲＲｅｓｕｌｔに含まれることを示す。

推定部５の具体的な処理について説明する。ここでは、推定認識結果を得るための重みを推定する方法として、音声認識処理を利用した推定方法について説明する。まず、推定部５は、抽出部４により発話音声集合から抽出された関連発話音声を取得する。次に、推定部５は、重みを規定の初期値に設定して、関連発話音声の音声認識処理を行うことにより音声認識結果を取得する。

次に、推定部５は、取得された音声認識結果に、認識対象の単語が含まれているか否かを判定する。推定部５は、認識対象の単語が含まれている場合、音声認識結果を推定認識結果として、上述の図５Ａのように、単語ＩＤ、発話ＩＤ及び重みとともに記憶する。推定部５は、認識対象の単語が含まれていない場合、重みを増やし、再度、音声認識処理を行い、音声認識結果に認識対象の単語が含まれているか否かを判定する。推定部５は、音声認識結果に認識対象の単語が含まれるか、又は、重みが予め決められた範囲外になるまで、音声認識処理を繰り返す。

なお、重みの初期値は任意でよい。重みの初期値は、例えば推定認識結果と関連付けられて既に記憶されている重みの平均でもよい。推定認識結果に認識対象の単語が含まれていた場合の重みの平均を初期値に設定することにより、関連発話音声の音声認識処理をより効率的に行うことができる。

また、音声認識結果に認識対象が含まれていない場合の重みの増加量は任意でよい。重みの増加量は、例えば単語の読みと、発話音声の読みに含まれる類似箇所との編集距離に基づいて決定してもよい。推定部５は、例えば編集距離が大きいほど、重みの増加量を増やしてもよい。

図１に戻り、出力制御部６は、ユーザにより設定（指定）された重みに応じて、推定認識結果の出力を制御する。出力部７は、出力制御部６により出力された推定認識結果を出力する。出力部７は、例えば液晶ディスプレイ等により実現される。

図６Ａは第１実施形態の推定認識結果を含む出力情報１１０ａの例を示す図である。図６Ａの例は、認識対象として、単語「（ＲＤＣ）」が選択され、重みの設定が「１」である場合を示す。出力情報１１０ａは、単語表示領域１１１、重み設定インタフェース１１２及び関連発話表示領域１１３を含む。関連発話表示領域１１３は、区切り線１１４により、上部の表示領域と下部の表示領域とに区切られている。

単語表示領域１１１には、ユーザ辞書（図２Ａ参照）に記憶されている単語の表記、読み及び重みが表示される。重みは、現在、単語に設定されている設定値が表示される。

重み設定インタフェース１１２は、重みを設定（指定）するインタフェースである。図６Ａの例では、重み設定インタフェース１１２は、重みを１〜１０の範囲で設定可能なスライドバーであり、当該スライドバーにより重みが「１」に設定されている。

なお、重み設定インタフェース１１２による重みの設定に連動して、単語表示領域１１１に表示されている重みの設定（実際の設定値）が変更されるようにしてもよい。また、単語表示領域１１１に表示されている重みの設定（実際の設定値）は、重み設定インタフェース１１２による重みの設定とは連動させずに、ユーザが別の手段で設定するようにしてもよい。

区切り線１１４よりも上部の表示領域には、単語「（ＲＤＣ）」を含む推定認識結果が表示される。図６Ａの例では、重み設定インタフェース１１２により設定された重みが「１」であるため、発話ＩＤが「１」の発話音声の推定認識結果が、区切り線１１４の上部の表示領域に表示されている。

一方、区切り線１１４よりも下部の表示領域には、単語「（ＲＤＣ）」を含まない推定認識結果が表示される。図６Ａの例では、重み設定インタフェース１１２により設定された重みが「１」であるため、発話ＩＤが「２」及び「３」の発話音声の推定認識結果が、区切り線１１４の下部の表示領域に表示されている。

なお、重み設定インタフェース１１２による重み設定のユーザ支援として、設定された重みで音声認識がなされた場合に、認識対象の単語を含む推定認識結果の表示件数を表示する領域を出力情報１１０ａに設けてもよい。

関連発話表示領域１１３に表示される情報は、単語表示領域１１１で選択された単語と、重み設定インタフェース１１２で設定（指定）された重みとに応じて変更される。例えば、関連発話表示領域１１３に表示されている類似箇所１１５ａは、重み設定インタフェース１１２による重み設定を「２」以上に設定することにより、単語「（ＲＤＣ）」として表示される（図６Ｂ参照）。

図６Ｂは第１実施形態の推定認識結果を含む出力情報１１０ｂの例を示す図である。図６Ｂの例は、認識対象として、単語「（ＲＤＣ）」が選択され、重みの設定が「２」である場合を示す。出力情報１１０ｂは、単語表示領域１１１、重み設定インタフェース１１２及び関連発話表示領域１１３を含む。関連発話表示領域１１３は、区切り線１１４により、上部の表示領域と下部の表示領域に区切られている。

単語表示領域１１１の説明は、図６Ａと同じなので省略する。

重み設定インタフェース１１２は、重みを設定するインタフェースである。図６Ｂの例では、重み設定インタフェース１１２は、重みを１〜１０の範囲で設定可能なスライドバーであり、当該スライドバーにより重みが「２」に設定されている。

区切り線１１４よりも上部の表示領域には、単語「（ＲＤＣ）」を含む推定認識結果が表示される。図６Ｂの例では、重み設定インタフェース１１２により設定された重みが「２」であるため、発話ＩＤが「１」及び「２」の発話音声の推定認識結果が、区切り線１１４の上部の表示領域に表示されている。特に、発話ＩＤが「２」の発話音声の類似箇所１１５ａ（図６Ａ参照）が、単語「（ＲＤＣ）」として認識された箇所１１５ｂに変更されている。また、発話ＩＤが「２」の発話音声の推定認識結果の表示位置が、区切り線１１４の下部の表示領域から上部の表示領域に変更されている。

一方、区切り線１１４よりも下部の表示領域には、単語「（ＲＤＣ）」を含まない推定認識結果が表示される。図６Ｂの例では、重み設定インタフェース１１２により設定された重みが「２」であるため、発話ＩＤが「３」の発話音声の推定認識結果が、区切り線１１４の下部の表示領域に表示されている。

なお、図６Ｂの例では、重み設定インタフェース１１２による重み設定のユーザ支援として、設定された重みで音声認識がなされたときに、認識対象の単語を含む推定認識結果の表示件数を表示する場合の例も示している。図６Ｂの例では、重み設定インタフェース１１２の下部に、認識対象の単語を含む推定認識結果の表示件数を表示する領域が設けられている。図６Ｂの例では、例えば単語「（ＲＤＣ）」の重みが５に設定された場合、単語「（ＲＤＣ）」を含む推定認識結果の表示件数が２０件であることが示されている。

ここで、上述の図６Ａの出力情報１１０ａ、及び、上述の図６Ｂの出力情報１１０ｂの出力制御を可能にする出力制御部６の具体的な動作例について説明する。出力制御部６は、ユーザにより、単語表示領域１１１の単語が選択され、重み設定インタフェース１１２で重みが設定されると、以下の処理を行う。

まず、出力制御部６は、ユーザにより選択された単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果と、当該推定認識結果の認識元データである発話音声の発話ＩＤとの組（図５Ａ参照）を取得する。次に、出力制御部６は、ユーザにより設定された重みと、取得された推定認識結果に関連付けられた重みとを比較する。

出力制御部６は、ユーザにより設定された重みが、取得された推定認識結果に関連付けられた重み以上の場合、ユーザにより選択された単語を含む推定認識結果（第１の推定認識結果）として、当該推定認識結果（図５Ａ参照）を関連発話表示領域１１３の区切り線１１４より上部の表示領域に表示する。

一方、出力制御部６は、ユーザにより設定された重みが、取得された推定認識結果に関連付けられた重みより小さい場合、ユーザにより選択された単語を含まない推定認識結果（第２の推定認識結果）として、取得された発話ＩＤに関連付けられた文字列情報（図３Ａ参照）を、関連発話表示領域１１３の区切り線１１４より下部の表示領域に表示する。

次に、フローチャートを参照して、第１実施形態の編集支援方法の例について説明する。

［編集支援方法］
図７は第１実施形態の編集支援方法の例を示すフローチャートである。はじめに、単語取得部２が、記憶部１から単語の表記と読みとを取得する（ステップＳ１）。次に、発話取得部３が、記憶部１から発話音声集合を取得する（ステップＳ２）。

次に、抽出部４が、ステップＳ１の処理により取得された単語の表記及び読みの少なくとも一方に基づいて、ステップＳ２の処理により取得された発話音声集合から当該単語に関連する関連発話音声を抽出する（ステップＳ３）。

次に、推定部５が、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する（ステップＳ４）。

次に、出力制御部６が、ユーザにより設定（指定）された重みに応じて、推定認識結果の出力を制御する（ステップＳ５）。

以上説明したように、第１実施形態の編集支援装置１０では、抽出部４が、音声認識に使用される辞書（第１実施形態ではユーザ辞書）に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から当該単語に関連する関連発話音声を抽出する。推定部５が、単語の認識されやすさを調整する重みと、当該重みが設定された場合に関連発話音声から認識されることが推定される推定認識結果とを推定する。そして、出力制御部６が、設定された重みに応じて、推定認識結果の出力を制御する。

これにより第１実施形態の編集支援装置１０によれば、辞書に追加された単語による音声認識結果の影響範囲を具体的に把握することができる。例えば、辞書に追加された単語は、音声認識の結果に悪影響を及ぼす可能性もあるが、第１実施形態の編集支援装置１０によれば、辞書に追加された単語が音声認識の結果に与える影響を、単語の認識されやすさを調整する重みを変えながら、具体的に把握することができる。これにより、例えばユーザがユーザ辞書を効率的に編集でき、音声認識時にユーザが望む認識結果を低コストで取得することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

［機能構成の例］
図８は第２実施形態の編集支援装置１０−２の機能構成の例を示す図である。第２実施形態の編集支援装置１０−２は、記憶部１、単語取得部２、発話取得部３、抽出部４、推定部５、出力制御部６−２、出力部７及び算出部８を備える。すなわち、第２実施形態の編集支援装置１０−２は、第１実施形態の編集支援装置１０の構成に更に算出部８が追加されている。また、第２実施形態の編集支援装置１０−２では、出力制御部６−２の動作が第１実施形態の動作から変更されている。

算出部８は、既にユーザにより設定（決定）された単語の重みに基づいて、まだユーザにより重みが設定されていない単語の重みの推奨値を算出する。具体的には、まず算出部８は、ユーザによる認識許容値を下記式（４）により算出する。

（認識許容値）＝（認識対象の単語を含む音声認識結果の数）／（認識対象の単語の関連発話音声の数）・・・（４）

ここで、認識許容値の具体例について説明する。例えば単語ＩＤが「１」の単語「（ＲＤＣ）」の関連発話音声の数は３つである（図４Ａ参照）。このとき、単語「（ＲＤＣ）」の重みが、ユーザにより例えば「２」に設定されると、単語「（ＲＤＣ）」を含む音声認識結果（第１の推定認識結果）の数は２つとなる（図５Ａ及び６Ｂ参照）。したがって、単語「（ＲＤＣ）」の認識許容値（第１の認識許容値）は２／３となる。

次に、算出部８は、既に重みが設定された単語（第１の単語）の認識許容値の平均値である平均認識許容値を算出する。そして、算出部８は、平均認識許容値から、まだユーザにより重みが設定されていない単語（第２の単語）の重みの推奨値を算出する。具体的には、算出部８は、まだ重みが設定されていない単語の認識許容値（第２の認識許容値）が、平均認識許容値以上となる重みにより、当該単語の重みの推奨値を算出する。

出力制御部６−２は、算出部８により算出された推奨値を、例えば上述の単語表示領域１１１に含む出力情報１１０ａ（１１０ｂ）を出力部７に出力する。なお、出力情報１１０ａ（１１０ｂ）は、算出部８により算出された推奨値を、まだ重みが設定されていない単語の重みに一括で設定するボタン等のユーザインタフェース等を含んでいてもよい。

以上、説明したように、第２実施形態の編集支援装置１０−２では、出力制御部６−２が、算出部８により算出された推奨値を出力部７に出力する。これにより第２実施形態の編集支援装置１０−２によれば、第１実施形態と同様の効果を得ることができるとともに、ユーザはより効率的に、音声認識に使用される辞書に追加された単語の重みを設定することができる。すなわち、第２実施形態の編集支援装置１０−２によれば、ユーザは、所望の音声認識結果を従来よりも容易に（より低コストで）得ることができる。

最後に、第１実施形態の編集支援装置１０のハードウェア構成の例について説明する。なお第２実施形態の編集支援装置１０−２のハードウェア構成の例の説明についても、第１実施形態の編集支援装置１０のハードウェア構成の説明と同じである。

［ハードウェア構成の例］
図９は第１実施形態の編集支援装置１０のハードウェア構成の例を示す図である。第１実施形態の編集支援装置１０は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。制御装置３０１は、例えばＣＰＵ等の１以上のプロセッサである。主記憶装置３０２はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置３０３はメモリカード、及び、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等である。

表示装置３０４は情報を表示する。表示装置３０４は、例えば液晶ディスプレイである。上述の出力部７は、例えば表示装置３０４により実現される。入力装置３０５は、情報の入力を受け付ける。入力装置３０５は、例えばキーボード及びマウス等である。なお表示装置３０４及び入力装置３０５は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置３０６は他の装置と通信する。

第１実施形態の編集支援装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ、及び、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

また第１実施形態の編集支援装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第１実施形態の編集支援装置１０が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また第１実施形態の編集支援装置１０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１実施形態の編集支援装置１０で実行されるプログラムは、第１実施形態の編集支援装置１０の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

プログラムにより実現される機能は、制御装置３０１が補助記憶装置３０３等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置３０２にロードされる。すなわちプログラムにより実現される機能は、主記憶装置３０２上に生成される。

なお第１実施形態の編集支援装置１０の機能の一部を、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。ＩＣは、例えば専用の処理を実行するプロセッサである。

また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２以上を実現してもよい。

また第１実施形態の編集支援装置１０の動作形態は任意でよい。第１実施形態の編集支援装置１０を、例えばネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１記憶部
２単語取得部
３発話取得部
４抽出部
５推定部
６出力制御部
７出力部
８算出部
１０編集支援装置
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置
３１０バス

Claims

音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する抽出部と、
前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する推定部と、
設定された前記重みに応じて、前記推定認識結果の出力を制御する出力制御部と、
を備える編集支援装置。
前記抽出部は、前記発話音声集合に含まれる発話音声を音声認識することにより得られた音素列を取得し、前記音素列に、前記単語の読みから変換された音素列の一部又は全部を含む発話音声を、関連発話音声として抽出する、
請求項１に記載の編集支援装置。
前記抽出部は、前記発話音声集合に含まれる発話音声を音声認識することにより得られた音声認識結果に、前記単語の表記の一部又は全部を含む発話音声を、関連発話音声として抽出する、
請求項１に記載の編集支援装置。
前記出力制御部は、前記単語を含む第１の推定認識結果と、前記単語を含まない第２の推定認識結果とが区別された出力情報を出力部に出力することにより、前記推定認識結果の出力を制御する、
請求項１に記載の編集支援装置。
既にユーザにより設定された第１の単語の重みに基づいて、まだユーザにより重みが設定されていない第２の単語の重みの推奨値を算出する算出部を更に備え、
前記出力制御部は、前記推奨値の出力を更に制御する、
請求項４に記載の編集支援装置。
前記算出部は、前記第１の単語について、前記第１の推定認識結果の数を前記関連発話音声の数で除算した第１の認識許容値を算出し、前記第２の単語の重みの推奨値として、前記第２の単語の第２の認識許容値が、前記第１の認識許容値の平均値以上になる重みを算出する、
請求項５に記載の編集支援装置。
音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出するステップと、
前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定するステップと、
設定された前記重みに応じて、前記推定認識結果の出力を制御するステップと、
を含む編集支援方法。
コンピュータを、
音声認識に使用される辞書に追加された単語の読み及び表記の少なくとも一方に基づいて、発話音声集合から前記単語に関連する関連発話音声を抽出する抽出部と、
前記単語の認識されやすさを調整する重みと、前記重みが設定された場合に前記関連発話音声から認識されることが推定される推定認識結果とを推定する推定部と、
設定された前記重みに応じて、前記推定認識結果の出力を制御する出力制御部、
として機能させるためのプログラム。