JP6499228B2

JP6499228B2 - テキスト生成装置、方法、及びプログラム

Info

Publication number: JP6499228B2
Application number: JP2017120758A
Authority: JP
Inventors: 平芦川; 西山　修; 修西山; 朋男池田; 上野　晃嗣; 晃嗣上野; 康太中田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2019-04-10
Anticipated expiration: 2033-04-03
Also published as: JP2017187797A

Description

本発明の実施形態は、テキスト生成装置、方法、及びプログラムに関する。

書き起こし作業とは、例えば、録音された音声データを聞きながら、音声の内容を文章にする（テキストに書き起こす）作業のことである。そこで、従来から、書き起こし作業の負担を軽減するため、音声認識システムを用いて、書き起こし作業を支援する装置が知られている。

特開２００７−１０８４０７号公報

しかしながら、従来の装置は、作業者が望む適度な音声認識結果を得ることができず、書き起こし作業の負担を軽減するものではない。

実施形態に係るテキスト生成装置は、認識部、選択部、及び生成部を備える。認識部は、取得した音声を認識し、認識単位ごとの認識文字列と前記認識文字列の信頼度とを得る。選択部は、書き起こし精度のパラメータ、及び、書き起こしに要する作業量のパラメータの、少なくとも一方の前記パラメータに基づき、書き起こし文に用いる少なくとも１つの前記認識文字列を選択する。生成部は、選択された前記認識文字列を用いて、前記書き起こし文を生成する。

第１の実施形態に係るテキスト生成装置の利用例を示す図。第１の実施形態に係るテキスト生成装置の機能構成例を示す図。第１の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。第１の実施形態に係る音声認識結果のデータ例を示す図。第１の実施形態に係る認識文字列選択時の処理例（その１）を示すフローチャート。第１の実施形態に係る書き起こし精度の許容値の設定例を示す図。第１の実施形態に係る認識文字列選択結果のデータ例（その１）を示す図。第１の実施形態に係る認識文字列選択時の処理例（その２）を示すフローチャート。第１の実施形態に係る書き起こし作業時間の許容値の設定例を示す図。第１の実施形態に係る認識文字列選択結果のデータ例（その２）を示す図。第１の実施形態に係る認識文字列選択時の処理例（その３）を示すフローチャート。第１の実施形態に係る書き起こし作業コストの許容値の設定例を示す図。第１の実施形態に係る認識文字列選択結果のデータ例（その３）を示す図。第１の実施形態に係る書き起こし文生成時の処理例を示すフローチャート。第１の実施形態に係る書き起こし文のデータ形式例を示す図。第１の実施形態に係る書き起こし文の表示例を示す図。第１の実施形態に係る文字挿入位置設定時の処理例を示すフローチャート。第１の実施形態に係る音声位置探索時の処理例を示すフローチャート。第２の実施形態に係るテキスト生成装置の機能構成例を示す図。第２の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。第２の実施形態に係る認識結果結合時の処理例を示すフローチャート。第３の実施形態に係るテキスト生成装置の機能構成例を示す図。第３の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。第３の実施形態に係る発話区間情報のデータ例を示す図。第３の実施形態に係る認識文字列選択時の処理例を示すフローチャート。第３の実施形態に係る書き起こし精度の許容値の設定例を示す図。実施形態に係るテキスト生成装置の構成例を示す図。

以下に、添付図面を参照して、テキスト生成装置、方法、及びプログラムの実施形態を詳細に説明する。

［第１の実施形態］
＜概略＞
本実施形態に係るテキスト生成装置が有する機能（以下「テキスト生成機能」という）について説明する。本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こし精度に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。又は、本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こしに要する作業量に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。その結果、本実施形態に係るテキスト生成装置は、選択した認識文字列から書き起こし文を生成する。これにより、本実施形態に係るテキスト生成装置では、適度な音声認識結果を利用した書き起こし作業が可能となる。本実施形態に係るテキスト生成装置では、このようなテキスト生成機能を有する。

従来の装置には、例えば、音声データに対する音声認識結果を俯瞰するものがある。この装置では、音声認識結果に対して、認識された単語の信頼度と重要度とに基づいて優先度を求め、優先度に従って、音声認識結果の出力情報を整形する。しかし、従来の装置は、作業者が、表示対象範囲の指定による出力調整しかできない。そのため、従来の装置では、書き起こしの精度、又は、書き起こしに要する作業量に応じて、作業者が望む適度な音声認識結果が出力されることが少なく、作業者に対する書き起こし作業の負担が大きい。このように、従来の装置は、作業者に対する書き起こし作業の負担を軽減するものではない。

そこで、本実施形態に係るテキスト生成装置は、作業者が指定した作業条件（書き起こし精度、又は、書き起こしに要する作業量)に応じて、音声認識結果の出力を調整する。本実施形態に係るテキスト生成装置は、調整した出力に対して、作業者が追加・修正を行う場合に、音声認識結果を用いて入力文字と音声とを同期することで、書き起こし作業が行える仕組みとした。

その結果、本実施形態に係るテキスト生成装置では、書き起こし精度や書き起こしに要する作業量などの作業条件に応じた適度な音声認識結果を、書き起こし作業時に利用することができ、音声認識結果に対して、容易に文字の追加や修正が行える。これにより、本実施形態に係るテキスト生成装置は、作業者に対する書き起こし作業の負担を軽減できる。

なお、本実施形態に係るテキスト生成装置は、例えば、次のようなサービスを提供できる。図１は、本実施形態に係るテキスト生成装置の利用例を示す図である。例えば、図１には、複数の話者の音声を認識し、各話者の発言ごとに、その内容をテキストに書き起こし、各テキストに発言元の話者の名前を付すことができるサービスに用いられた場合の例が示されている。

以下に、本実施形態に係るテキスト生成装置が有する機能の構成とその動作について説明する。

《構成》
図２は、本実施形態に係るテキスト生成装置の機能構成例を示す図である。図２に示すように、本実施形態に係るテキスト生成装置１００は、取得部１１、認識部１２、選択部１３、生成部１４、設定部１５、探索部１６、再生部１７、及び認識結果保持部１８などを有する。

取得部１１は、所定の入力手段により、音声入力を受け付けて、音声を取得する。認識部１２は、取得部１１で取得された音声を認識し、少なくとも、認識単位ごとの認識文字列と認識文字列の信頼度とを算出し、算出結果を認識結果保持部１８に記憶する。なお、認識単位は、例えば、形態素などに相当する。また、認識結果保持部１８は、例えば、テキスト生成装置１００が備える記憶装置の所定の記憶領域に相当する。

選択部１３は、書き起こし作業の作業条件に関する各種パラメータと、認識結果保持部１８に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも１つの認識文字列を選択する。なお、作業条件に関する各種パラメータの値は、例えば、ＵＩ（User Interface）を介して、作業者Ｕからの操作を受け付けることで指定される値である。生成部１４は、選択部１３で選択された認識文字列を用いて、書き起こし文を生成する。設定部１５は、選択部１３で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Ｕによる文字入力の開始位置（以下「文字挿入位置」という）を設定する。なお、選択されなかった認識文字列は、例えば、ＵＩを介して、作業者Ｕからの操作を受け付けることで指定される。

探索部１６は、設定部１５で設定された文字挿入位置において、作業者Ｕによる文字入力が開始された場合に、入力された文字に対応する音声の位置（以下「音声位置」という）を探索する。なお、探索の開始は、例えば、ＵＩを介して、作業者Ｕからの操作を受け付けることで指示される。再生部１７は、探索された音声位置から音声を再生する。

以下に、本実施形態に係るテキスト生成装置１００で実行されるテキスト生成時の基本処理について説明する。
《処理》
図３は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図３に示すように、取得部１１は、音声を取得する（ステップＳ１０１）。次に認識部１２は、取得部１１で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する（ステップＳ１０２）。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部１８に記憶される。

次に選択部１３は、書き起こし作業の作業条件に関する各種パラメータ（作業条件パラメータ）と、認識結果保持部１８に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも１つの認識文字列を選択する（ステップＳ１０３）。このとき選択部１３は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。次に生成部１４は、選択部１３で選択された認識文字列と、選択部１３で選択されなかった認識文字列とを用いて、書き起こし文を生成する（ステップＳ１０４）。

次に設定部１５は、選択部１３で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Ｕから受け付けた設定に従い、作業者Ｕによる文字挿入位置を設定する（ステップＳ１０５）。次に探索部１６は、設定部１５で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する（ステップＳ１０６）。

次に再生部１７は、作業者Ｕから受け付けた指定に従い、探索部１６で探索された音声位置から音声を再生する（ステップＳ１０７）。その後、テキスト生成装置１００は、作業者Ｕからの文字入力（追加・修正）を受け付ける（ステップＳ１０８）。

本実施形態に係るテキスト生成装置１００は、作業者Ｕから書き起こし終了の指示を受け付けると（ステップＳ１０９：Ｙｅｓ）、処理を終了する。一方、テキスト生成装置１００は、作業者Ｕから書き起こし終了の指示が行われるまで（ステップＳ１０９：Ｎｏ）、ステップＳ１０６〜Ｓ１０８までの処理を繰り返す。

＜詳細＞
ここからは、上記各機能部の詳細について説明する。

《各機能部の詳細》
（取得部１１）
取得部１１は、文字へと書き起こす対象となる音声を取得する。

（認識部１２）
認識部１２は、取得部１１で取得された音声を認識して、少なくとも、認識単位ごとの認識文字列と認識文字列の信頼度とを認識結果として得る。

図４は、本実施形態に係る音声認識結果Ｄ１のデータ例を示す図である。図４には、認識部１２が、「こんにちは、ＡＢＣ会社の太郎です。」という発話を音声認識した場合に得られる結果例が示されている。このように、認識部１２は、例えば、認識ＩＤ、認識文字列、及び認識文字列の信頼度などを含む音声認識結果Ｄ１を得る。認識部１２は、得た音声認識結果Ｄ１を認識結果保持部１８に記憶し保管する。

（選択部１３）
選択部１３は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも１つの認識文字列を選択する。

ここで、上記書き起こし精度と作業量について説明する。書き起こし精度は、書き起こした文字列と、音声を正確に文字に起こした場合の文字列（正解文字列）との一致の度合いを示す値であり、値が大きければ、書き起こした文字列と正解文字列の一致の度合いが高く、正確に書き起こされていることを表す。また、書き起こしに要する作業量は、音声を文字に起こす場合に必要な作業量であり、例えば、書き起こし作業にかかる時間やコストなどに相当する。

以下に、選択部１３が認識文字列を選択する処理について説明する。図５は、本実施形態に係る認識文字列選択時の処理例（その１）を示すフローチャートである。図５には、選択部１３が、書き起こし精度に関するパラメータとして、書き起こし精度の許容値を用いる場合の処理例が示されている。

図５に示すように、選択部１３は、まず、作業者Ｕから、書き起こし精度の許容値Ｐの設定を受け付ける（ステップＳ２０１）。

図６は、本実施形態に係る書き起こし精度の許容値Ｐの設定例を示す図である。図６に示すように、作業者Ｕは、例えば、Ｎ段階（図中ではＮ＝５）のうち１つの許容段階を指定可能なスライド式のＵＩ（スライドバー）を介して、書き起こし精度の許容値Ｐを設定する。このように、選択部１３は、上記ＵＩを画面に表示し、作業者Ｕからの設定を受け付ける。

図５の説明に戻る。次に選択部１３は、認識部１２で得られた認識結果（認識結果保持部１８に記憶された認識結果）のうち、最初の認識文字列を対象文字列ｗとし（ステップＳ２０２）、対象文字列ｗの信頼度から、対象文字列ｗの書き起こし精度ｗｐを算出する（ステップＳ２０３）。このとき、選択部１３は、例えば、書き起こし精度として１〜Ｎの正の整数値を利用する場合、以下の（式１）により、対象文字列ｗの書き起こし精度ｗｐを算出する。
書き起こし精度ｗｐ＝Ｎ×（対象文字列ｗの信頼度/信頼度の最高値）・・・（式１）

次に選択部１３は、算出した対象文字列ｗの書き起こし精度ｗｐと書き起こし精度の許容値Ｐとを比較し、書き起こし精度ｗｐが許容値Ｐ以上か否かを判定する（ステップＳ２０４）。その結果、選択部１３は、書き起こし精度ｗｐが許容値Ｐ以上と判定した場合（ステップＳ２０４：Ｙｅｓ）、対象文字列ｗを選択する（ステップＳ２０５）。一方、選択部１３は、書き起こし精度ｗｐが許容値Ｐ未満と判定した場合（ステップＳ２０４：Ｎｏ）、対象文字列ｗを選択しない。

次に選択部１３は、認識部１２で得られた認識結果に、次の認識文字列があるか否かを判定する（ステップＳ２０６）。その結果、選択部１３は、次の認識文字列があると判定した場合（ステップＳ２０６：Ｙｅｓ）、次の認識文字列を対象文字列ｗとし（ステップＳ２０７）、ステップＳ２０３〜Ｓ２０６までの処理を繰り返す。一方、選択部１３は、次の認識文字列がないと判定した場合（ステップＳ２０６：Ｎｏ）、処理を終了する。

図７は、本実施形態に係る認識文字列選択結果Ｄ２のデータ例（その１）を示す図である。図７には、Ｎ＝５、対象文字列ｗの信頼度＝４、及び信頼度Ｐの最高値＝１００とした場合、式（１）により算出した書き起こし精度ｗｐに基づき、認証文字列を選択した選択結果が示されている。このように、選択部１３は、例えば、認識ＩＤ、認識文字列、認識文字列の信頼度、書き起こし精度ｗｐ、及び選択結果などを含む認識文字列選択結果Ｄ２を得る。また、選択部１３は、書き起こしに要する作業量（例えば「作業時間」と「作業コスト」など）に基づき、認識文字列を選択してもよい。

図８は、本実施形態に係る認識文字列選択時の処理例（その２）を示すフローチャートである。図８には、選択部１３が、書き起こしに要する作業量に関するパラメータとして、書き起こしに要する作業時間の許容値を用いる場合の処理例が示されている。

図８に示すように、選択部１３は、まず、作業者Ｕから、書き起こしに要する作業時間の許容値Ｔの設定を受け付ける（ステップＳ３０１）。

図９は、本実施形態に係る書き起こし作業時間の許容値Ｔの設定例を示す図である。図９に示すように、作業者Ｕは、例えば、００：００：００からＨＨ：ＭＭ：ＳＳの間の時間を指定可能なスライド式のＵＩ（スライドバー）を介して、書き起こしに要する作業時間の許容値Ｔを設定する。このように、選択部１３は、上記ＵＩを画面に表示し、作業者Ｕからの設定を受け付ける。なお、指定可能な時間の最高値には、例えば、予め決められた値を用いる。また、指定可能な時間の最高値には、次のような方法で算出した値を用いてもよい。例えば、一文字あたりの作業時間を決めておき、認識部１２で得られた認識文字列の全文字数と一文字あたりの作業時間との積を算出し、算出した値を用いてもよい。また、認識部１２が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、出力された各認識文字列の終端時刻から始端時刻を減算した時間（発話時間）を算出し、全認識文字列の発話時間を総和した時間を用いてもよい。

図８の説明に戻る。次に選択部１３は、認識部１２で得られた認識結果を、認識文字列の信頼度の降順にソートする（ステップＳ３０２）。次に選択部１３は、書き起こしに要する作業時間の累積を示す累積作業時間ｓｔを初期化する（ステップＳ３０３）。

次に選択部１３は、降順にソートした認識結果のうち、最初の認識文字列を対象文字列ｗとし（ステップＳ３０４）、対象文字列ｗの書き起こしに要する作業時間ｔを算出する（ステップＳ３０５）。このとき、選択部１３は、例えば、対象文字列ｗの文字数を用いた以下の（式２）により、対象文字列ｗの書き起こしに要する作業時間ｔを算出する。
書き起こしに要する作業時間ｔ＝ α×（対象文字列ｗの文字数）・・・（式２）
なお、αには、例えば、１文字を書き起こすのにかかる平均時間を用いる。

また、選択部１３は、例えば、認識部１２が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、（式３）により、対象文字列ｗの書き起こしに要する作業時間ｔを算出してもよい。
書き起こしに要する作業時間ｔ＝ β×（対象文字列ｗの終端時刻―対象文字列ｗの始端時刻）・・・（式３）
なお、βには、例えば、１形態素（１つの認識単位）を書き起こすのにかかる平均時間を用いる。

次に選択部１３は、対象文字列ｗの書き起こしに要する作業時間ｔから、書き起こしに要する累積作業時間ｓｔを算出する（ステップＳ３０６）。このとき選択部１３は、例えば、書き起こしに要する累積作業時間ｓｔに、（式２）又は（式３）で算出した対象文字列ｗの書き起こしに要する作業時間ｔを加算し累積する。

次に選択部１３は、算出した書き起こしに要する累積作業時間ｓｔと書き起こし作業時間の許容値Ｔを比較し、累積作業時間ｓｔが許容値Ｔ以下か否かを判定する（ステップＳ３０７）。その結果、選択部１３は、累積作業時間ｓｔが許容値Ｔ以下と判定した場合（ステップＳ３０７：Ｙｅｓ）、対象文字列ｗを選択する（ステップＳ３０８）。一方、選択部１３は、累積作業時間ｓｔが許容値Ｔより大きいと判定した場合（ステップＳ３０７：Ｎｏ）、対象文字列ｗを選択しない。

次に選択部１３は、認識部１２で得られた認識結果に、次の認識文字列があるか否かを判定する（ステップＳ３０９）。その結果、選択部１３は、次の認識文字列があると判定した場合（ステップＳ３０９：Ｙｅｓ）、次の認識文字列を対象文字列ｗとし（ステップＳ３１０）、ステップＳ３０５〜Ｓ３０９までの処理を繰り返す。一方、選択部１３は、次の認識文字列がないと判定した場合（ステップＳ３０９：Ｎｏ）、処理を終了する。

図１０は、本実施形態に係る認識文字列選択結果Ｄ２のデータ例（その２）を示す図である。図１０には、（式３）により算出した書き起こしに要する作業時間ｔに基づき、認証文字列を選択した選択結果が示されている。このように、選択部１３は、例えば、認識ＩＤ、認識文字列、認識文字列の信頼度、書き起こしに要する作業時間ｔ、累積作業時間ｓｔ、及び選択結果などを含む認識文字列選択結果Ｄ２を得る。

図１１は、本実施形態に係る認識文字列選択時の処理例（その３）を示すフローチャートである。図１１には、選択部１３が、書き起こしに要する作業量に関するパラメータとして、書き起こしに要する作業コストの許容値を用いる場合の処理例が示されている。

図１１に示すように、選択部１３は、まず、作業者Ｕから、書き起こしに要する作業コストの許容値Ｃの設定を受け付ける（ステップＳ４０１）。

図１２は、本実施形態に係る書き起こし作業コストの許容値Ｃの設定例を示す図である。図１２に示すように、作業者Ｕは、例えば、０から最高値の間の値を指定可能なスライド式のＵＩ（スライドバー）を介して、書き起こしに要する作業コストの許容値Ｃを設定する。このように、選択部１３は、上記ＵＩを画面に表示し、作業者Ｕからの設定を受け付ける。なお、指定可能な値の最高値には、例えば、予め決められた値を用いる。また、指定可能な時間の最高値には、次のような方法で算出した値を用いてもよい。例えば、一文字あたりの作業時間を決めておき、認識部１２で得られた認識文字列の全文字数と一文字あたりの作業時間との積を算出し、算出した値を用いてもよい。また、認識部１２が、認識結果として各認識文字列の発話時間（終端時刻から始端時刻を減算した時間）を出力する場合、出力された各認識文字列の発話時間を総和した時間と、単位時間あたりの作業コストの積を算出し、算出した値を用いてもよい。

図１１の説明に戻る。次に選択部１３は、認識部１２で得られた認識結果を、認識文字列の信頼度の降順にソートする（ステップＳ４０２）。次に選択部１３は、書き起こしに要する作業コストの累積を示す累積作業コストｓｃを初期化する（ステップＳ４０３）。

次に選択部１３は、降順にソートした認識結果のうち、最初の認識文字列を対象文字列ｗとし（ステップＳ４０４）、対象文字列ｗの書き起こしに要する作業コストｃを算出する（ステップＳ４０５）。このとき、選択部１３は、例えば、対象文字列ｗの文字数を用いた以下の（式４）により、対象文字列ｗの書き起こしに要する作業コストｃを算出する。
書き起こしに要する作業コストｃ＝ γ×（対象文字列ｗの文字数）・・・（式４）
なお、γには、例えば、１文字を書き起こすのにかかる平均コストを用いる。

また、選択部１３は、例えば、認識部１２が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、（式５）により、対象文字列ｗの書き起こしに要する作業コストｃを算出してもよい。
書き起こしに要する作業コストｃ＝ ζ×（対象文字列ｗの終端時刻―対象文字列ｗの始端時刻）・・・（式５）
なお、ζには、例えば、１形態素（１つの認識単位）を書き起こすのにかかる平均コストを用いる。

次に選択部１３は、対象文字列ｗの書き起こしに要する作業コストｃから、書き起こしに要する累積作業コストｓｃを算出する（ステップＳ４０６）。このとき選択部１３は、例えば、書き起こしに要する累積作業コストｓｃに、（式４）又は（式５）で算出した対象文字列ｗの書き起こしに要する作業コストｃを加算し累積する。

次に選択部１３は、算出した書き起こしに要する累積作業コストｓｃと書き起こし作業コストの許容値Ｃを比較し、累積作業コストｓｃが許容値Ｃ以下か否かを判定する（ステップＳ４０７）。その結果、選択部１３は、累積作業コストｓｃが許容値Ｃ以下と判定した場合（ステップＳ４０７：Ｙｅｓ）、対象文字列ｗを選択する（ステップＳ４０８）。一方、選択部１３は、累積作業コストｓｃが許容値Ｃより大きいと判定した場合（ステップＳ４０７：Ｎｏ）、対象文字列ｗを選択しない。

次に選択部１３は、認識部１２で得られた認識結果に、次の認識文字列があるか否かを判定する（ステップＳ４０９）。その結果、選択部１３は、次の認識文字列があると判定した場合（ステップＳ４０９：Ｙｅｓ）、次の認識文字列を対象文字列ｗとし（ステップＳ４１０）、ステップＳ４０５〜Ｓ４０９までの処理を繰り返す。一方、選択部１３は、次の認識文字列がないと判定した場合（ステップＳ４０９：Ｎｏ）、処理を終了する。

図１３は、本実施形態に係る認識文字列選択結果Ｄ２のデータ例（その３）を示す図である。図１３には、（式５）により算出した書き起こしに要する作業コストｃに基づき、認証文字列を選択した選択結果が示されている。このように、選択部１３は、例えば、認識ＩＤ、認識文字列、認識文字列の信頼度、書き起こしに要する作業コストｃ、累積作業コストｓｃ、及び選択結果などを含む認識文字列選択結果Ｄ２を得る。

（生成部１４）
生成部１４は、選択部１３において、選択された認識文字列と選択されなかった認識文字列とを用いて、書き起こし文を生成する。

以下に、生成部１４が書き起こし文を生成する処理について説明する。図１４は、本実施形態に係る書き起こし文生成時の処理例を示すフローチャートである。また、図１５は、本実施形態に係る書き起こし文のデータ形式例を示す図である。

図１４に示すように、生成部１４は、まず、書き起こし文ｋを初期化する（ステップＳ５０１）。書き起こし文ｋは、例えば、データ形式がＨＴＭＬ（HyperText Markup Language）の場合、図１５に示すように、ＤＩＶ要素として作成される。

次に生成部１４は、認識部１２で得られた認識結果のうち、最初の認識文字列を対象文字列ｗとし（ステップＳ５０２）、対象文字列ｗが選択部１３において選択されているか否かを判定する（ステップＳ５０３）。その結果、生成部１４は、対象文字列ｗが選択されていると判定した場合（ステップＳ５０３：Ｙｅｓ）、対象文字列ｗから選択要素ｓを作成し（ステップＳ５０４）、作成した選択要素ｓを書き起こし文ｋに追加する（ステップＳ５０５）。選択要素ｓは、例えば、図１５に示すように、ＩＤ属性を、対象文字列ｗの識別ＩＤ、また、ＣＬＡＳＳ属性を、選択要素ｓを示す文字列（例えば「ｓｅｌｅｃｔｅｄ」）とするＳＰＡＮ要素として作成される。一方、生成部１４は、対象文字列ｗが選択されていないと判定した場合（ステップＳ５０３：Ｎｏ）、対象文字列ｗから非選択要素ｎｓを作成し（ステップＳ５０６）、作成した非選択要素ｎｓを書き起こし文ｋに追加する（ステップＳ５０７）。非選択要素ｎｓは、例えば、図１５に示すように、ＩＤ属性を、対象文字列ｗの識別ＩＤ、また、ＣＬＡＳＳ属性を、非選択要素ｎｓを示す文字列（例えば「ｎｏｔ＿ｓｅｌｅｃｔｅｄ」）とするＳＰＡＮ要素として作成される。

次に生成部１４は、認識部１２で得られた認識結果に、次の認識文字列があるか否かを判定する（ステップＳ５０８）。その結果、生成部１４は、次の認識文字列があると判定した場合（ステップＳ５０８：Ｙｅｓ）、次の認識文字列を対象文字列ｗとし（ステップＳ５０９）、ステップＳ５０３〜Ｓ５０８までの処理を繰り返す。一方、生成部１４は、次の認識文字列がないと判定した場合（ステップＳ５０８：Ｎｏ）、処理を終了する。

図１６は、本実施形態に係る書き起こし文ｋの表示例を示す図である。図１６に示すように、生成部１４では、選択要素ｓの文字列と非選択要素ｎｓの文字列との区別が明確となるように、異なる態様で表示可能な書き起こし文ｋを生成してもよい。例えば、図１６（Ａ）には、非選択要素ｎｓの文字列に下線を付した場合の表示例が示されている。また、図１６（Ｂ）には、選択要素ｓの文字列より、非選択要素ｎｓの文字列の文字サイズを小さくした場合の表示例が示されている。また、図１６（Ｃ）には、非選択要素ｎｓの文字列に網掛けを施した場合の表示例が示されている。また、図１６（Ｄ）には、非選択要素ｎｓの文字列を所定の文字（図中では黒丸）に置き換えた場合の表示例が示されている。この他にも、文字の濃さ、色、書体、背景色などを変えた表示例などがある。また、認識部１２が、認識単位ごとに、信頼度が高い第Ｎ候補（Ｎは１以上の整数）までの認識文字列を出力する場合、選択されなかった認識文字列に対して、第Ｎ候補までの認識文字列を、作業者Ｕが選択可能な状態で表示される書き起こし文ｋを生成してもよい。

（設定部１５）
設定部１５は、生成部１４で生成された書き起こし文ｋの非選択要素ｎｓに基づき、文字挿入位置（文字入力の開始位置）を設定する。このとき設定部１５は、検出した現在の文字挿入位置と、書き起こし文内において、選択部１３で選択された認識文字列に相当する選択要素と選択部１３で選択されなかった認識文字列に相当する非選択要素との位置関係とに基づき、文字挿入位置を設定する。

以下に、設定部１５が文字挿入位置を設定する処理について説明する。図１７は、本実施形態に係る文字挿入位置設定時の処理例を示すフローチャートである。

図１７に示すように、設定部１５は、まず、作業者Ｕから、非選択要素ｎｓの文字への移動指示を受け付ける（ステップＳ６０１）。このとき設定部１５は、例えば、表示された書き起こし文内で所定のキー（例えば「タブキー」）が押下されたことを検出した場合、移動が指示されたと判断し、指示を受け付ける。
次に設定部１５は、書き起こし文内の現在の文字挿入位置ｃｐを検出する（ステップＳ６０２）。なお、現在の文字挿入位置ｃｐは、書き起こし文内の文字列における現在の文字挿入位置ｃｐである。例えば、書き起こし文が表示される画面上では、カーソル位置（例えば「縦棒が点滅する位置」）に相当する。

次に設定部１５は、検出した現在の文字挿入位置ｃｐが選択要素内か否かを判定する（ステップＳ６０３）。その結果、設定部１５は、現在の文字挿入位置ｃｐが選択要素内であると判定した場合（ステップＳ６０３：Ｙｅｓ）、文字挿入位置ｃｐより後方で、文字挿入位置ｃｐに最も近い位置にある非選択要素ｎｓを検出する（ステップＳ６０４）。一方、設定部１５は、文字挿入位置ｃｐが選択要素内でないと判定した場合（ステップＳ６０３：Ｎｏ）、文字挿入位置ｃｐより後方で、文字挿入位置ｃｐに最も近い位置にある選択要素ｓを検出する（ステップＳ６０５）。その後、設定部１５は、検出した選択要素ｓより後方で、検出した選択要素ｓに最も近い位置にある非選択要素ｎｓを検出する（ステップＳ６０６）。次に設定部１５は、検出した非選択要素ｎｓの先頭位置ｎｓｐに文字挿入位置ｃｐを移動する（ステップＳ６０７）。

なお、設定部１５は、非選択要素ｎｓの先頭位置ｎｓｐに文字挿入位置ｃｐを移動した後に、非選択要素ｎｓにより後方で連続する他の非選択要素が存在する場合、非選択要素ｎｓの文字列と他の非選択要素の文字列とを異なる態様で表示させてもよい。例えば、設定部１５は、非選択要素ｎｓの文字列と他の非選択要素の文字列とを、別の背景色によりハイライト表示させてもよい。

（探索部１６）
探索部１６は、文字挿入位置ｃｐにおいて、作業者Ｕによる文字入力が開始された場合に、入力文字に対応する音声位置を探索する。

以下に、探索部１６が音声位置を探索する処理について説明する。図１８は、本実施形態に係る音声位置探索時の処理例を示すフローチャートである。

図１８に示すように、設定部１５は、まず、作業者Ｕから、現在の文字挿入位置ｃｐに対応する音声位置の探索指示を受け付ける（ステップＳ７０１）。このとき探索部１６は、例えば、表示された書き起こし文内でＥｎｔｅｒキーが押下されたことを検出した場合、探索が指示されたと判断し、指示を受け付ける。

次に探索部１６は、書き起こし文内の現在の文字挿入位置ｃｐを検出する（ステップＳ７０２）。次に探索部１６は、検出した現在の文字挿入位置ｃｐが選択要素内か否かを判定する（ステップＳ７０３）。

その結果、探索部１６は、現在の文字挿入位置ｃｐが選択要素内であると判定した場合（ステップＳ７０３：Ｙｅｓ）、選択要素ｓの始端時刻を音声位置ｐとする（ステップＳ７０４）。一方、探索部１６は、現在の文字挿入位置ｃｐが選択要素内でないと判定した場合（ステップＳ７０３：Ｎｏ）、所定の音声認識技術（例えば「強制アライメント法」）を用いて、音声位置ｐを推定する（ステップＳ７０５）。このとき探索部１６は、書き起こし文字ｋ、文字挿入位置ｃｐがある非選択要素ｎｓに該当する認識文字列の始端時刻、及び現在の音声再生位置などから、音声認識技術により推定する。

（再生部１７）
再生部１７は、探索部１６で探索された音声位置ｐから音声を再生する。

＜まとめ＞
以上のように、本実施形態に係るテキスト生成装置１００によれば、音声認識結果に基づき算出した認識文字列の信頼度と、作業者Ｕが指定した書き起こし作業の作業条件に関する各種パラメータ（書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ）とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。

これによって、本実施形態に係るテキスト生成装置１００は、作業者Ｕが指定した作業条件に応じて、音声認識結果の出力を調整する。本実施形態に係るテキスト生成装置１００は、調整した出力に対して、作業者Ｕが追加・修正を行う場合に、音声認識結果を用いて入力文字と音声とを同期することで、書き起こし作業が行える環境を提供する。

その結果、本実施形態に係るテキスト生成装置１００は、書き起こしの作業条件に応じた適度な音声認識結果を、書き起こし作業時に利用することができ、音声認識結果に対して、容易に文字の追加や修正が行える。これにより、本実施形態に係るテキスト生成装置１００は、作業者Ｕに対する書き起こし作業の負担を軽減できる。

［第２の実施形態］
＜概略＞
本実施形態に係るテキスト生成装置が有する機能（テキスト生成機能）について説明する。本実施形態に係るテキスト生成装置は、認識部で得られた認識結果を、文単位、又は、時間単位で結合し、結合した結果を、書き起こし文に用いる点で、上記実施形態と異なる。より具体的には、本実施形態に係るテキスト生成装置は、認識文字列の文末表現に基づき、認識結果を文単位に結合した結果を書き起こし文に用いる。又は、本実施形態に係るテキスト生成装置は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合した結果を、書き起こし文に用いる。

以下に、本実施形態に係るテキスト生成装置が有する機能の構成とその動作について説明する。なお、以下の説明では、上記実施形態と異なる事項について説明し、同じ事項については同一符号を付し、その説明を省略する。

《構成》
図１９は、本実施形態に係るテキスト生成装置１００の機能構成例を示す図である。図１９に示すように、本実施形態に係るテキスト生成装置１００は、第１の実施形態の機能構成に対して、結合部２１及び認識結合結果保持部２２などを、さらに有する。

結合部２１は、認識部１２で得られた認識結果（認識結果保持部１８に記憶された認識結果）を、文単位、又は、時間単位で結合し、結合した結果を認識結合結果保持部２２に記憶する。なお、認識結合結果保持部２２は、例えば、テキスト生成装置１００が備える記憶装置の所定の記憶領域に相当する。また、選択部１３や探索部１６は、認識結合結果保持部２２に記憶された認識結合結果を用いる。

以下に、本実施形態に係るテキスト生成装置１００で実行されるテキスト生成時の基本処理について説明する。
《処理》
図２０は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図２０に示すように、取得部１１は、音声を取得する（ステップＳ８０１）。次に認識部１２は、取得部１１で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する（ステップＳ８０２）。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部１８に記憶される。

次に結合部２１は、認識部１２の認識結果を、所定の文単位、又は、所定の時間単位で結合する（ステップＳ８０３）。その結果、結合された認識文字列と結合後の認識文字列の信頼度は、認識結合結果として認識結合結果保持部２２に記憶される。次に選択部１３は、書き起こし作業の作業条件に関する各種パラメータ（作業条件パラメータ）と、認識結合結果保持部２２に記憶された認識結合結果の信頼度（結合後の認識文字列の信頼度）とに基づき、書き起こし文に用いる、少なくとも１つの認識文字列を選択する（ステップＳ８０４）。このとき選択部１３は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。

次に生成部１４は、選択部１３で選択された認識文字列と、選択部１３で選択されなかった認識文字列とを用いて、書き起こし文を生成する（ステップＳ８０５）。次に設定部１５は、選択部１３で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Ｕから受け付けた設定に従い、作業者Ｕによる文字挿入位置を設定する（ステップＳ８０６）。次に探索部１６は、設定部１５で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する（ステップＳ８０７）。

次に再生部１７は、作業者Ｕから受け付けた指定に従い、探索部１６で探索された音声位置から音声を再生する（ステップＳ８０８）。その後、テキスト生成装置１００は、作業者Ｕからの文字入力（追加・修正）を受け付ける（ステップＳ８０９）。

本実施形態に係るテキスト生成装置１００は、作業者Ｕから書き起こし終了の指示を受け付けると（ステップＳ８１０：Ｙｅｓ）、処理を終了する。一方、テキスト生成装置１００は、作業者Ｕから書き起こし終了の指示が行われるまで（ステップＳ８１０：Ｎｏ）、ステップＳ８０７〜Ｓ８０９までの処理を繰り返す。

＜詳細＞
ここからは、主に結合部２１と選択部１３の詳細について説明する。

《各機能部の詳細》
（結合部２１）
結合部２１は、認識文字列の文末表現に基づき、認識結果を文単位に結合し、認識結合結果を得る。又は、結合部２１は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合し、結合した文字列（結合後の認識文字列）と結合結果の信頼度とを含む認識結合結果を得る。

以下に、結合部２１が認識結果を結合する処理について説明する。図２１は、本実施形態に係る認識結果結合時の処理例を示すフローチャートである。

図２１に示すように、結合部２１は、まず、認識部１２で得られた認識結果（認識結果保持部１８に記憶された認識結果）の一時結合結果ｃｒを初期化する（ステップＳ９０１）。次に結合部２１は、認識部１２で得られた認識結果のうち、最初の認識結果を対象認識結果ｒとする（ステップＳ９０２）。次に結合部２１は、一時結合結果ｃｒに対象認識結果ｒを追加する（ステップＳ９０３）。

次に結合部２１は、結合を完了するか否かを判定する（ステップＳ９０４）。このとき結合部２１は、文単位に結合する場合と時間単位に結合する場合とで判定処理が異なる。

（Ａ）文単位に結合する場合の判定処理
結合部２１は、対象認識結果ｒの認識文字列が文末か否かの判定結果に基づき、結合を完了するか否かを判定する。この場合、結合部２１は、対象認識結果ｒの認識文字列が文末である場合、結合を完了すると判定する（ステップＳ９０４：Ｙｅｓ）。一方、結合部２１は、対象認識結果ｒの認識文字列が文末でない場合、結合を完了しないと判定する（ステップＳ９０４：Ｎｏ）。なお、文末の判定方法には、例えば、「。」（句点）、「．」（ピリオド）、又は「？」（疑問符）などの文の終わりを表す文字又は記号が、認識文字列に含まれているか否かにより判定する方法などがある。また、これらの文字又は記号が含まれていない場合には、例えば、「です」や「ます」などの所定の文末表現が認識文字列に含まれているか否かにより判定してもよい。

（Ｂ）時間単位に結合する場合の判定処理
結合部２１は、認識結果として得られた認識文字列の始端時刻と終端時刻とに基づき、結合を完了するか否かを判定する。この場合、結合部２１は、対象認識結果ｒに相当する認識文字列の始端時刻から、対象認識結果ｒのひとつ前に一時結合結果ｃｒに追加された認識結果に相当する認識文字列の終端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定する（ステップＳ９０４：Ｙｅｓ）。一方、結合部２１は、経過時間が、所定の時間未満の場合、結合を完了しないと判定する（ステップＳ９０４：Ｎｏ）。なお、結合部２１は、対象認識結果ｒの始端時刻から、一時結合結果ｃｒに追加された最初の認識結果に相当する認識文字列の始端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定してもよい。

その結果、結合部２１は、結合を完了すると判定した場合（ステップＳ９０４：Ｙｅｓ）、一時結合結果ｃｒの信頼度を算出する（ステップＳ９０５）。なお、一時結合結果ｃｒの信頼度は、一時結合結果ｃｒに追加された認識結果に相当する認識文字列の信頼度に基づき算出する。例えば、一時結合結果ｃｒに追加された認識結果に相当する認識文字列の信頼度の平均値を算出し、算出した値を一時結合結果ｃｒの信頼度とする。一方、結合部２１は、結合を完了しないと判定した場合（ステップＳ９０４：Ｎｏ）、後述するステップＳ９０８の処理へ移行し、ステップＳ９０５〜Ｓ９０７までの処理をスキップする。

次に結合部２１は、一時結合結果ｃｒに相当する認識文字列を結合した文字列（結合後の認識文字列）と、算出した一時結合結果ｃｒの信頼度とを、認識結合結果保持部２２に記憶し（ステップＳ９０６）、一時結合結果ｃｒを初期化する（ステップＳ９０７）。

次に結合部２１は、認識部１２で得られた認識結果に、次の認識結果があるか否かを判定する（ステップＳ９０８）。その結果、結合部２１は、次の認識結果があると判定した場合（ステップＳ９０８：Ｙｅｓ）、次の認識結果を対象認識結果ｒとし（ステップＳ９０９）、ステップＳ９０３〜Ｓ９０８までの処理を繰り返す。一方、結合部２１は、次の認識結果がないと判定した場合（ステップＳ９０８：Ｎｏ）、一時結合結果ｃｒに認識結果が残っているか否かを判定する（ステップＳ９１０）。その結果、結合部２１は、一時結合結果ｃｒに認識結果が残っていると判定した場合（ステップＳ９１０：Ｙｅｓ）、ステップＳ９０５の処理へ移行する。一方、結合部２１は、一時結合結果ｃｒに認識結果が残っていないと判定した場合（ステップＳ９１０：Ｎｏ）、処理を終了する。

（選択部１３）
選択部１３は、書き起こし精度に関するパラメータと認識結合結果の信頼度（結合後の認識文字列の信頼度）、又は、書き起こしに要する作業量に関するパラメータと認識結合結果の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも１つの認識文字列を選択する。

＜まとめ＞
以上のように、本実施形態に係るテキスト生成装置１００によれば、文単位、又は、所定の時間単位ごとに結合した認識文字列の信頼度と、作業者Ｕが指定した書き起こし作業の作業条件に関する各種パラメータ（書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ）とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。

その結果、本実施形態に係るテキスト生成装置１００は、第１の実施形態と同様に、容易に文字の追加や修正が行え、作業者Ｕに対する書き起こし作業の負担を軽減できる。

［第３の実施形態］
本実施形態に係るテキスト生成装置が有する機能（テキスト生成機能）について説明する。本実施形態に係るテキスト生成装置は、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータ（書き起こし精度、又は、書き起こしに要する作業量）とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する点で、上記実施形態と異なる。

《構成》
図２２は、本実施形態に係るテキスト生成装置１００の機能構成例を示す図である。図２２に示すように、本実施形態に係るテキスト生成装置１００は、第１の実施形態の機能構成に対して、発話区間情報生成部３１及び発話区間情報保持部３２などを、さらに有する。

発話区間情報生成部３１は、取得部１１で取得された音声に対して、各発話を識別する発話ＩＤ、発話が開始された時刻（以下「発話開始時刻」という）、及び発話している発話者を識別する発話者ＩＤなどを含む発話区間情報を生成し、生成した発話区間情報を発話区間情報保持部３２に記憶する。なお、発話区間情報保持部３２は、例えば、テキスト生成装置１００が備える記憶装置の所定の記憶領域に相当する。また、選択部１３や探索部１６は、発話区間情報保持部３２に記憶された発話区間情報を用いる。

以下に、本実施形態に係るテキスト生成装置１００で実行されるテキスト生成時の基本処理について説明する。
《処理》
図２３は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図２３に示すように、取得部１１は、音声を取得する（ステップＳ１００１）。次に認識部１２は、取得部１１で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する（ステップＳ１００２）。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部１８に記憶される。

次に発話区間情報生成部３１は、取得部１１で取得された音声に対して、発話ごとに、発話ＩＤ、発話開始時刻、及び発話者ＩＤを含む発話区間情報を生成する（ステップＳ１００３）。その結果、発話区間情報は、発話区間情報保持部３２に記憶される。

次に選択部１３は、発話区間情報保持部３２に記憶された発話区間情報に基づき、発話者、又は、発話区間ごとに、書き起こし作業の作業条件に関する各種パラメータ（作業条件パラメータ）と、認識結果保持部１８に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも１つの認識文字列を選択する（ステップＳ１００４）。このとき選択部１３は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。次に生成部１４は、選択部１３で選択された認識文字列と、選択部１３で選択されなかった認識文字列とを用いて、書き起こし文を生成する（ステップＳ１００５）。

次に設定部１５は、選択部１３で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Ｕから受け付けた設定に従い、作業者Ｕによる文字挿入位置を設定する（ステップＳ１００６）。次に探索部１６は、設定部１５で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する（ステップＳ１００７）。

次に再生部１７は、作業者Ｕから受け付けた指定に従い、探索部１６で探索された音声位置から音声を再生する（ステップＳ１００８）。その後、テキスト生成装置１００は、作業者Ｕからの文字入力（追加・修正）を受け付ける（ステップＳ１００９）。

本実施形態に係るテキスト生成装置１００は、作業者Ｕから書き起こし終了の指示を受け付けると（ステップＳ１０１０：Ｙｅｓ）、処理を終了する。一方、テキスト生成装置１００は、作業者Ｕから書き起こし終了の指示が行われるまで（ステップＳ１０１０：Ｎｏ）、ステップＳ１００７〜Ｓ１００９までの処理を繰り返す。

＜詳細＞
ここからは、主に発話区間情報生成部３１と選択部１３の詳細について説明する。

《各機能部の詳細》
（発話区間情報生成部３１）
発話区間情報生成部３１は、次のような方法で発話者と発話区間とを特定し、発話区間情報を生成する。例えば、発話区間情報生成部３１は、音声を聞きながら各発話の発話者と発話開始時刻とを特定した作業者Ｕからの特定結果を受け付け、受け付けた特定結果から発話区間情報を生成する。また、発話区間情報生成部３１は、音響的特徴量に基づく話者認識技術を用いて、発話者と発話区間とを推定し、推定した結果から発話区間情報を生成してもよい。

図２４は、本実施形態に係る発話区間情報Ｄ３のデータ例を示す図である。図２４には、発話区間情報生成部３１が、取得部１１で取得された音声から、複数の発話者と各発話区間とを特定（推定）した場合に生成されるデータ例が示されている。このように、発話区間情報生成部３１は、例えば、発話ＩＤ、発話開始時刻、及び発話者ＩＤなどを含む発話区間情報Ｄ３を生成する。発話区間情報生成部３１は、生成した発話区間情報Ｄ３を発話区間情報保持部３２に記憶し保管する。

（選択部１３）
選択部１３は、発話区間情報生成部３１で生成された発話区間情報Ｄ３に基づき、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータとに基づき、音声から認識した認識文字列を選択する。より具体的には、選択部１３は、発話者、又は、発話区間ごとに、書き起こし精度に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも１つの認識文字列を選択する。また、選択部１３は、発話者、又は、発話区間ごとに、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも１つの認識文字列を選択する。

以下に、選択部１３が認識文字列を選択する処理について説明する。図２５は、本実施形態に係る認識文字列選択時の処理例を示すフローチャートである。図２５には、選択部１３が、発話者ごとの書き起こし精度に関するパラメータとして、書き起こし精度の許容値を用いる場合の処理例が示されている。

図２５に示すように、選択部１３は、まず、作業者Ｕから、発話者ｉごとの書き起こし精度の許容値Ｐ（ｉ）（ｉ＝１〜Ｍ；Ｍは話者数）の設定を受け付ける（ステップＳ１１０１）。

図２６は、本実施形態に係る書き起こし精度の許容値Ｐ（ｉ）の設定例を示す図である。図２６に示すように、作業者Ｕは、例えば、Ｎ段階（図中ではＮ＝５）のうち１つの許容段階を指定可能なスライド式のＵＩ（スライドバー）を介して、発話者ごとの書き起こし精度の許容値Ｐ（ｉ）を設定する。このように、選択部１３は、上記ＵＩを画面に表示し、作業者Ｕからの設定を受け付ける。

図２５の説明に戻る。次に選択部１３は、認識部１２で得られた認識結果（認識結果保持部１８に記憶された認識結果）のうち、最初の認識文字列を対象文字列ｗとし（ステップＳ１１０２）、対象文字列ｗの信頼度から、対象文字列ｗの書き起こし精度ｗｐを算出する（ステップＳ１１０３）。このとき、選択部１３は、例えば、第１の実施形態で説明した（式１）により、対象文字列ｗの書き起こし精度ｗｐを算出する。

次に選択部１３は、発話区間情報保持部３２で記憶された発話区間情報Ｄ３に基づき、対象文字列ｗの発話者ｗｉを特定する（ステップＳ１１０４）。このとき選択部１３は、例えば、発話区間情報Ｄ３の中で、発話区間ｎの開始時刻と次の発話区間ｎ＋１の開始時刻との間に、認識文字列の始端時刻が存在する発話区間ｎを抽出し、発話区間ｎの発話者ＩＤから発話者ｗｉを特定する。

次に選択部１３は、算出した対象文字列ｗの書き起こし精度ｗｐと、特定した発話者ｗｉの書き起こし精度の許容値Ｐ（ｗｉ）とを比較し、書き起こし精度ｗｐが許容値Ｐ（ｗｉ）以上か否かを判定する（ステップＳ１１０５）。その結果、選択部１３は、書き起こし精度ｗｐが許容値Ｐ（ｗｉ）以上と判定した場合（ステップＳ１１０５：Ｙｅｓ）、対象文字列ｗを選択する（ステップＳ１１０６）。一方、選択部１３は、書き起こし精度ｗｐが許容値Ｐ（ｗｉ）未満と判定した場合（ステップＳ１１０５：Ｎｏ）、対象文字列ｗを選択しない。

次に選択部１３は、認識部１２で得られた認識結果に、次の認識文字列があるか否かを判定する（ステップＳ１１０７）。その結果、選択部１３は、次の認識文字列があると判定した場合（ステップＳ１１０７：Ｙｅｓ）、次の認識文字列を対象文字列ｗとし（ステップＳ１１０８）、ステップＳ１１０３〜Ｓ１１０７までの処理を繰り返す。一方、選択部１３は、次の認識文字列がないと判定した場合（ステップＳ１１０７：Ｎｏ）、処理を終了する。

なお、選択部１３は、上述したように、発話者ごとの書き起こし作業量に関するパラメータを用いて、認識文字列を選択してもよい。また、選択部１３は、発話区間ごとの書き起こし精度に関するパラメータ、又は、書き起こし作業量に関するパラメータのいずれかのパラメータを用いて、認識文字列を選択してもよい。

＜まとめ＞
以上のように、本実施形態に係るテキスト生成装置１００によれば、発話者、又は、発話区間ごとに、作業者Ｕが指定した書き起こし作業の作業条件に関する各種パラメータ（書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ）と、認識文字列の信頼度とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。

＜装置＞
図２７は、上記実施形態に係るテキスト生成装置１００の構成例を示す図である。図２７に示すように、実施形態に係るテキスト生成装置１００は、ＣＰＵ（Central Processing Unit）１０１、及び主記憶装置１０２などを備える。また、テキスト生成装置１００は、補助記憶装置１０３、通信ＩＦ（interface）１０４、外部ＩＦ１０５、及びドライブ装置１０７などを備える。テキスト生成装置１００は、各デバイスがバスＢを介して相互に接続される。このように、実施形態に係るテキスト生成装置１００は、一般的な情報処理装置に相当する。

ＣＰＵ１０１は、装置全体の制御や搭載機能を実現するための演算装置である。主記憶装置１０２は、プログラムやデータなどを所定の記憶領域に保持する記憶装置（メモリ）である。主記憶装置１０２は、例えば、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などである。また、補助記憶装置１０３は、主記憶装置１０２より容量の大きい記憶領域を備える記憶装置である。補助記憶装置１０３は、例えば、ＨＤＤ（Hard Disk Drive）やメモリカード（Memory Card）などの不揮発性の記憶装置である。よって、ＣＰＵ１０１は、例えば、補助記憶装置１０３から主記憶装置１０２上に、プログラムやデータを読み出し、処理を実行することで、装置全体の制御や搭載機能を実現する。

通信ＩＦ１０４は、装置をデータ伝送路Ｎに接続するインタフェースである。これにより、テキスト生成装置１００は、データ伝送路Ｎを介して接続される他の外部機器（他の情報処理装置）とデータ通信が行える。外部ＩＦ１０５は、装置と外部装置１０６との間でデータを送受信するためのインタフェースである。外部装置１０６には、例えば、処理結果などの各種情報を表示する表示装置（例えば「液晶ディスプレイ」）や操作入力を受け付ける入力装置（例えば「テンキー」、「キーボード」、又は「タッチパネル」）などがある。ドライブ装置１０７は、記憶媒体１０８の書き込み又は読み取りを行う制御装置である。記憶媒体１０８は、例えば、フレキシブルディスク（ＦＤ）、ＣＤ（Compact Disk）、及びＤＶＤ（Digital Versatile Disk）などである。

また、上記実施形態に係るテキスト生成機能は、例えば、テキスト生成装置１００において、プログラムを実行することで、上記各機能部が連携動作することで実現される。この場合、プログラムは、実行環境の装置（コンピュータ）が読み取り可能な記憶媒体に、インストール可能な形式又は実行可能な形式のファイルで記録され提供される。例えば、テキスト生成装置１００の場合には、プログラムは、上記各機能部を含むモジュール構成となっており、ＣＰＵ１０１が記憶媒体１０８からプログラムを読み出し実行することで、主記憶装置１０２のＲＡＭ上に各機能部が生成される。なお、プログラムの提供方法は、この限りでない。例えば、プログラムを、インターネットなどに接続された外部機器に格納し、データ伝送路Ｎ経由でダウンロードする方法であってもよい。また、主記憶装置１０２のＲＯＭや補助記憶装置１０３のＨＤＤなどに予め組み込んで提供する方法であってもよい。なお、ここでは、テキスト生成機能をソフトウェアの実装により実現する例を説明したが、この限りでない。例えば、テキスト生成機能が有する各機能部の一部又は全部を、ハードウェアの実装により実現してもよい。

また、上記実施形態では、テキスト生成装置１００が、取得部１１、認識部１２、選択部１３、生成部１４、設定部１５、探索部１６、再生部１７、認識結果保持部１８、結合部２１、認識結合結果保持部２２、発話区間情報生成部３１、又は発話区間情報保持部３２などの一部又は全部を有する構成について説明を行ったが、この限りでない。例えば、テキスト生成装置１００が、これらの機能部の一部の機能を有する外部機器と、通信ＩＦ１０４を介して接続され、接続された外部機器とデータ通信を行うことで、各機能部が連携動作し、上記テキスト生成機能を提供する構成であってもよい。これにより、本実施形態に係るテキスト生成装置１００は、クラウド環境などにも適用できる。

最後に、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１１取得部
１２認識部
１３選択部
１４生成部
１５設定部
１６探索部
１７再生部
１８認識結果保持部
２１結合部
２２認識結合結果保持部
３１発話区間情報生成部
３２発話区間情報保持部
１００テキスト生成装置

Claims

取得した音声を認識し、認識単位ごとの認識文字列を得る認識部と、
書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも１つの前記認識文字列を選択する選択部と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する生成部と、
を備えるテキスト生成装置。
前記選択部は、
前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度の組み合わせに基づき、前記認識文字列を選択する、
請求項１に記載のテキスト生成装置。
前記選択部は、
前記パラメータを前記認識文字列の信頼度に基づいて累積した累積作業量と、前記パラメータの許容値とを比較し、前記累積作業量が前記許容値以下の場合に、前記認識文字列を選択する、
請求項１に記載のテキスト生成装置。
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
前記認識文字列の文字数に基づき、前記書き起こし作業時間を算出する、
請求項３に記載のテキスト生成装置。
前記認識部は、
前記認識文字列の始端時刻と終端時刻とを、さらに得て、
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
前記認識文字列の始端時刻と終端時刻とに基づき、前記書き起こし作業時間を算出する、
請求項３に記載のテキスト生成装置。
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
前記認識文字列の文字数に基づき、書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出する、
請求項３に記載のテキスト生成装置。
前記認識部は、
前記認識文字列の始端時刻と終端時刻とを、さらに得て、
前記選択部は、
前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
前記認識文字列の始端時刻と終端時刻に基づき、書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出する、
請求項３に記載のテキスト生成装置。
前記生成部は、
前記選択部で選択されなかった前記認識文字列のうち、前記認識文字列の信頼度の高い第Ｎ候補（Ｎは１以上の整数）までの前記認識文字列を、作業者が選択可能な状態で表示される前記書き起こし文を生成する、
請求項１に記載のテキスト生成装置。
前記選択部で選択されなかった前記認識文字列に対応する前記書き起こし文の位置において、作業者による文字入力の開始位置に相当する文字挿入位置を設定する設定部を、さらに備え、
前記設定部は、
検出した現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記文字挿入位置を設定する、
請求項１に記載のテキスト生成装置。
前記設定部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
請求項９に記載のテキスト生成装置。
前記設定部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内でない場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記選択要素を検出し、検出した前記選択要素より後方で、前記選択要素に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
請求項９に記載のテキスト生成装置。
前記設定部で設定された前記文字挿入位置において、作業者による文字入力が開始された場合に、入力された文字に対応する音声位置を探索する探索部と、
前記探索部で探索された前記音声位置から前記音声を再生する再生部と、をさらに備え、
前記探索部は、
前記設定部で検出された現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記音声位置を探索する、
請求項９に記載のテキスト生成装置。
前記探索部は、
検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記選択要素に相当する前記認識文字列の始端時刻を、前記音声位置とする、
請求項１２に記載のテキスト生成装置。
前記認識部で得られた前記認識文字列を、文単位、又は、所定の時間単位に結合し、結合した前記認識文字列及び結合した前記認識文字列の信頼度を得る結合部を、さらに備え、
前記選択部は、
前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
請求項１に記載のテキスト生成装置。
前記選択部は、
前記書き起こしに要する作業量のパラメータ及び結合した前記認識文字列の信頼度に基づき、前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
請求項１４に記載のテキスト生成装置。
前記音声に対する、各発話を識別する情報、各発話の発話開始時刻、各発話の発話者を識別する情報を含む発話区間情報を生成する生成部を、さらに備え、
前記選択部は、
前記発話者、又は、前記発話ごとに、前記認識文字列を選択する、
請求項１に記載のテキスト生成装置。
前記選択部は、
前記発話者、又は、前記発話ごとに、前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度に基づき、前記認識文字列を選択する、
請求項１６に記載のテキスト生成装置。
取得した音声を認識し、認識単位ごとの認識文字列を得る認識工程と、
書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも１つの前記認識文字列を選択する選択工程と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する生成工程と、
を含むテキスト生成方法。
コンピュータを、
取得した音声を認識し、認識単位ごとの認識文字列を得る手段と、
書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも１つの前記認識文字列を選択する手段と、
選択された前記認識文字列を用いて、前記書き起こし文を生成する手段、
として機能させるテキスト生成プログラム。