JP6499228B2 - テキスト生成装置、方法、及びプログラム - Google Patents

テキスト生成装置、方法、及びプログラム Download PDF

Info

Publication number
JP6499228B2
JP6499228B2 JP2017120758A JP2017120758A JP6499228B2 JP 6499228 B2 JP6499228 B2 JP 6499228B2 JP 2017120758 A JP2017120758 A JP 2017120758A JP 2017120758 A JP2017120758 A JP 2017120758A JP 6499228 B2 JP6499228 B2 JP 6499228B2
Authority
JP
Japan
Prior art keywords
character string
unit
transcription
recognition
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017120758A
Other languages
English (en)
Other versions
JP2017187797A (ja
Inventor
平 芦川
平 芦川
西山 修
修 西山
朋男 池田
朋男 池田
上野 晃嗣
晃嗣 上野
康太 中田
康太 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017120758A priority Critical patent/JP6499228B2/ja
Publication of JP2017187797A publication Critical patent/JP2017187797A/ja
Application granted granted Critical
Publication of JP6499228B2 publication Critical patent/JP6499228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、テキスト生成装置、方法、及びプログラムに関する。
書き起こし作業とは、例えば、録音された音声データを聞きながら、音声の内容を文章にする(テキストに書き起こす)作業のことである。そこで、従来から、書き起こし作業の負担を軽減するため、音声認識システムを用いて、書き起こし作業を支援する装置が知られている。
特開2007−108407号公報
しかしながら、従来の装置は、作業者が望む適度な音声認識結果を得ることができず、書き起こし作業の負担を軽減するものではない。
実施形態に係るテキスト生成装置は、認識部、選択部、及び生成部を備える。認識部は、取得した音声を認識し、認識単位ごとの認識文字列と前記認識文字列の信頼度とを得る。選択部は、書き起こし精度のパラメータ、及び、書き起こしに要する作業量のパラメータの、少なくとも一方の前記パラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する。生成部は、選択された前記認識文字列を用いて、前記書き起こし文を生成する。
第1の実施形態に係るテキスト生成装置の利用例を示す図。 第1の実施形態に係るテキスト生成装置の機能構成例を示す図。 第1の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。 第1の実施形態に係る音声認識結果のデータ例を示す図。 第1の実施形態に係る認識文字列選択時の処理例(その1)を示すフローチャート。 第1の実施形態に係る書き起こし精度の許容値の設定例を示す図。 第1の実施形態に係る認識文字列選択結果のデータ例(その1)を示す図。 第1の実施形態に係る認識文字列選択時の処理例(その2)を示すフローチャート。 第1の実施形態に係る書き起こし作業時間の許容値の設定例を示す図。 第1の実施形態に係る認識文字列選択結果のデータ例(その2)を示す図。 第1の実施形態に係る認識文字列選択時の処理例(その3)を示すフローチャート。 第1の実施形態に係る書き起こし作業コストの許容値の設定例を示す図。 第1の実施形態に係る認識文字列選択結果のデータ例(その3)を示す図。 第1の実施形態に係る書き起こし文生成時の処理例を示すフローチャート。 第1の実施形態に係る書き起こし文のデータ形式例を示す図。 第1の実施形態に係る書き起こし文の表示例を示す図。 第1の実施形態に係る文字挿入位置設定時の処理例を示すフローチャート。 第1の実施形態に係る音声位置探索時の処理例を示すフローチャート。 第2の実施形態に係るテキスト生成装置の機能構成例を示す図。 第2の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。 第2の実施形態に係る認識結果結合時の処理例を示すフローチャート。 第3の実施形態に係るテキスト生成装置の機能構成例を示す図。 第3の実施形態に係るテキスト生成時の基本処理例を示すフローチャート。 第3の実施形態に係る発話区間情報のデータ例を示す図。 第3の実施形態に係る認識文字列選択時の処理例を示すフローチャート。 第3の実施形態に係る書き起こし精度の許容値の設定例を示す図。 実施形態に係るテキスト生成装置の構成例を示す図。
以下に、添付図面を参照して、テキスト生成装置、方法、及びプログラムの実施形態を詳細に説明する。
[第1の実施形態]
<概略>
本実施形態に係るテキスト生成装置が有する機能(以下「テキスト生成機能」という)について説明する。本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こし精度に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。又は、本実施形態に係るテキスト生成装置は、音声認識結果に基づき算出した認識文字列の信頼度と、書き起こしに要する作業量に関するパラメータとに基づき、書き起こし文として用いる認識文字列を選択する。その結果、本実施形態に係るテキスト生成装置は、選択した認識文字列から書き起こし文を生成する。これにより、本実施形態に係るテキスト生成装置では、適度な音声認識結果を利用した書き起こし作業が可能となる。本実施形態に係るテキスト生成装置では、このようなテキスト生成機能を有する。
従来の装置には、例えば、音声データに対する音声認識結果を俯瞰するものがある。この装置では、音声認識結果に対して、認識された単語の信頼度と重要度とに基づいて優先度を求め、優先度に従って、音声認識結果の出力情報を整形する。しかし、従来の装置は、作業者が、表示対象範囲の指定による出力調整しかできない。そのため、従来の装置では、書き起こしの精度、又は、書き起こしに要する作業量に応じて、作業者が望む適度な音声認識結果が出力されることが少なく、作業者に対する書き起こし作業の負担が大きい。このように、従来の装置は、作業者に対する書き起こし作業の負担を軽減するものではない。
そこで、本実施形態に係るテキスト生成装置は、作業者が指定した作業条件(書き起こし精度、又は、書き起こしに要する作業量)に応じて、音声認識結果の出力を調整する。本実施形態に係るテキスト生成装置は、調整した出力に対して、作業者が追加・修正を行う場合に、音声認識結果を用いて入力文字と音声とを同期することで、書き起こし作業が行える仕組みとした。
その結果、本実施形態に係るテキスト生成装置では、書き起こし精度や書き起こしに要する作業量などの作業条件に応じた適度な音声認識結果を、書き起こし作業時に利用することができ、音声認識結果に対して、容易に文字の追加や修正が行える。これにより、本実施形態に係るテキスト生成装置は、作業者に対する書き起こし作業の負担を軽減できる。
なお、本実施形態に係るテキスト生成装置は、例えば、次のようなサービスを提供できる。図1は、本実施形態に係るテキスト生成装置の利用例を示す図である。例えば、図1には、複数の話者の音声を認識し、各話者の発言ごとに、その内容をテキストに書き起こし、各テキストに発言元の話者の名前を付すことができるサービスに用いられた場合の例が示されている。
以下に、本実施形態に係るテキスト生成装置が有する機能の構成とその動作について説明する。
《構成》
図2は、本実施形態に係るテキスト生成装置の機能構成例を示す図である。図2に示すように、本実施形態に係るテキスト生成装置100は、取得部11、認識部12、選択部13、生成部14、設定部15、探索部16、再生部17、及び認識結果保持部18などを有する。
取得部11は、所定の入力手段により、音声入力を受け付けて、音声を取得する。認識部12は、取得部11で取得された音声を認識し、少なくとも、認識単位ごとの認識文字列と認識文字列の信頼度とを算出し、算出結果を認識結果保持部18に記憶する。なお、認識単位は、例えば、形態素などに相当する。また、認識結果保持部18は、例えば、テキスト生成装置100が備える記憶装置の所定の記憶領域に相当する。
選択部13は、書き起こし作業の作業条件に関する各種パラメータと、認識結果保持部18に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも1つの認識文字列を選択する。なお、作業条件に関する各種パラメータの値は、例えば、UI(User Interface)を介して、作業者Uからの操作を受け付けることで指定される値である。生成部14は、選択部13で選択された認識文字列を用いて、書き起こし文を生成する。設定部15は、選択部13で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Uによる文字入力の開始位置(以下「文字挿入位置」という)を設定する。なお、選択されなかった認識文字列は、例えば、UIを介して、作業者Uからの操作を受け付けることで指定される。
探索部16は、設定部15で設定された文字挿入位置において、作業者Uによる文字入力が開始された場合に、入力された文字に対応する音声の位置(以下「音声位置」という)を探索する。なお、探索の開始は、例えば、UIを介して、作業者Uからの操作を受け付けることで指示される。再生部17は、探索された音声位置から音声を再生する。
以下に、本実施形態に係るテキスト生成装置100で実行されるテキスト生成時の基本処理について説明する。
《処理》
図3は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図3に示すように、取得部11は、音声を取得する(ステップS101)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS102)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
次に選択部13は、書き起こし作業の作業条件に関する各種パラメータ(作業条件パラメータ)と、認識結果保持部18に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも1つの認識文字列を選択する(ステップS103)。このとき選択部13は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。次に生成部14は、選択部13で選択された認識文字列と、選択部13で選択されなかった認識文字列とを用いて、書き起こし文を生成する(ステップS104)。
次に設定部15は、選択部13で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Uから受け付けた設定に従い、作業者Uによる文字挿入位置を設定する(ステップS105)。次に探索部16は、設定部15で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する(ステップS106)。
次に再生部17は、作業者Uから受け付けた指定に従い、探索部16で探索された音声位置から音声を再生する(ステップS107)。その後、テキスト生成装置100は、作業者Uからの文字入力(追加・修正)を受け付ける(ステップS108)。
本実施形態に係るテキスト生成装置100は、作業者Uから書き起こし終了の指示を受け付けると(ステップS109:Yes)、処理を終了する。一方、テキスト生成装置100は、作業者Uから書き起こし終了の指示が行われるまで(ステップS109:No)、ステップS106〜S108までの処理を繰り返す。
<詳細>
ここからは、上記各機能部の詳細について説明する。
《各機能部の詳細》
(取得部11)
取得部11は、文字へと書き起こす対象となる音声を取得する。
(認識部12)
認識部12は、取得部11で取得された音声を認識して、少なくとも、認識単位ごとの認識文字列と認識文字列の信頼度とを認識結果として得る。
図4は、本実施形態に係る音声認識結果D1のデータ例を示す図である。図4には、認識部12が、「こんにちは、ABC会社の太郎です。」という発話を音声認識した場合に得られる結果例が示されている。このように、認識部12は、例えば、認識ID、認識文字列、及び認識文字列の信頼度などを含む音声認識結果D1を得る。認識部12は、得た音声認識結果D1を認識結果保持部18に記憶し保管する。
(選択部13)
選択部13は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
ここで、上記書き起こし精度と作業量について説明する。書き起こし精度は、書き起こした文字列と、音声を正確に文字に起こした場合の文字列(正解文字列)との一致の度合いを示す値であり、値が大きければ、書き起こした文字列と正解文字列の一致の度合いが高く、正確に書き起こされていることを表す。また、書き起こしに要する作業量は、音声を文字に起こす場合に必要な作業量であり、例えば、書き起こし作業にかかる時間やコストなどに相当する。
以下に、選択部13が認識文字列を選択する処理について説明する。図5は、本実施形態に係る認識文字列選択時の処理例(その1)を示すフローチャートである。図5には、選択部13が、書き起こし精度に関するパラメータとして、書き起こし精度の許容値を用いる場合の処理例が示されている。
図5に示すように、選択部13は、まず、作業者Uから、書き起こし精度の許容値Pの設定を受け付ける(ステップS201)。
図6は、本実施形態に係る書き起こし精度の許容値Pの設定例を示す図である。図6に示すように、作業者Uは、例えば、N段階(図中ではN=5)のうち1つの許容段階を指定可能なスライド式のUI(スライドバー)を介して、書き起こし精度の許容値Pを設定する。このように、選択部13は、上記UIを画面に表示し、作業者Uからの設定を受け付ける。
図5の説明に戻る。次に選択部13は、認識部12で得られた認識結果(認識結果保持部18に記憶された認識結果)のうち、最初の認識文字列を対象文字列wとし(ステップS202)、対象文字列wの信頼度から、対象文字列wの書き起こし精度wpを算出する(ステップS203)。このとき、選択部13は、例えば、書き起こし精度として1〜Nの正の整数値を利用する場合、以下の(式1)により、対象文字列wの書き起こし精度wpを算出する。
書き起こし精度wp = N×(対象文字列wの信頼度/信頼度の最高値) ・・・ (式1)
次に選択部13は、算出した対象文字列wの書き起こし精度wpと書き起こし精度の許容値Pとを比較し、書き起こし精度wpが許容値P以上か否かを判定する(ステップS204)。その結果、選択部13は、書き起こし精度wpが許容値P以上と判定した場合(ステップS204:Yes)、対象文字列wを選択する(ステップS205)。一方、選択部13は、書き起こし精度wpが許容値P未満と判定した場合(ステップS204:No)、対象文字列wを選択しない。
次に選択部13は、認識部12で得られた認識結果に、次の認識文字列があるか否かを判定する(ステップS206)。その結果、選択部13は、次の認識文字列があると判定した場合(ステップS206:Yes)、次の認識文字列を対象文字列wとし(ステップS207)、ステップS203〜S206までの処理を繰り返す。一方、選択部13は、次の認識文字列がないと判定した場合(ステップS206:No)、処理を終了する。
図7は、本実施形態に係る認識文字列選択結果D2のデータ例(その1)を示す図である。図7には、N=5、対象文字列wの信頼度=4、及び信頼度Pの最高値=100とした場合、式(1)により算出した書き起こし精度wpに基づき、認証文字列を選択した選択結果が示されている。このように、選択部13は、例えば、認識ID、認識文字列、認識文字列の信頼度、書き起こし精度wp、及び選択結果などを含む認識文字列選択結果D2を得る。また、選択部13は、書き起こしに要する作業量(例えば「作業時間」と「作業コスト」など)に基づき、認識文字列を選択してもよい。
図8は、本実施形態に係る認識文字列選択時の処理例(その2)を示すフローチャートである。図8には、選択部13が、書き起こしに要する作業量に関するパラメータとして、書き起こしに要する作業時間の許容値を用いる場合の処理例が示されている。
図8に示すように、選択部13は、まず、作業者Uから、書き起こしに要する作業時間の許容値Tの設定を受け付ける(ステップS301)。
図9は、本実施形態に係る書き起こし作業時間の許容値Tの設定例を示す図である。図9に示すように、作業者Uは、例えば、00:00:00からHH:MM:SSの間の時間を指定可能なスライド式のUI(スライドバー)を介して、書き起こしに要する作業時間の許容値Tを設定する。このように、選択部13は、上記UIを画面に表示し、作業者Uからの設定を受け付ける。なお、指定可能な時間の最高値には、例えば、予め決められた値を用いる。また、指定可能な時間の最高値には、次のような方法で算出した値を用いてもよい。例えば、一文字あたりの作業時間を決めておき、認識部12で得られた認識文字列の全文字数と一文字あたりの作業時間との積を算出し、算出した値を用いてもよい。また、認識部12が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、出力された各認識文字列の終端時刻から始端時刻を減算した時間(発話時間)を算出し、全認識文字列の発話時間を総和した時間を用いてもよい。
図8の説明に戻る。次に選択部13は、認識部12で得られた認識結果を、認識文字列の信頼度の降順にソートする(ステップS302)。次に選択部13は、書き起こしに要する作業時間の累積を示す累積作業時間stを初期化する(ステップS303)。
次に選択部13は、降順にソートした認識結果のうち、最初の認識文字列を対象文字列wとし(ステップS304)、対象文字列wの書き起こしに要する作業時間tを算出する(ステップS305)。このとき、選択部13は、例えば、対象文字列wの文字数を用いた以下の(式2)により、対象文字列wの書き起こしに要する作業時間tを算出する。
書き起こしに要する作業時間t = α×(対象文字列wの文字数) ・・・ (式2)
なお、αには、例えば、1文字を書き起こすのにかかる平均時間を用いる。
また、選択部13は、例えば、認識部12が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、(式3)により、対象文字列wの書き起こしに要する作業時間tを算出してもよい。
書き起こしに要する作業時間t = β×(対象文字列wの終端時刻―対象文字列wの始端時刻) ・・・ (式3)
なお、βには、例えば、1形態素(1つの認識単位)を書き起こすのにかかる平均時間を用いる。
次に選択部13は、対象文字列wの書き起こしに要する作業時間tから、書き起こしに要する累積作業時間stを算出する(ステップS306)。このとき選択部13は、例えば、書き起こしに要する累積作業時間stに、(式2)又は(式3)で算出した対象文字列wの書き起こしに要する作業時間tを加算し累積する。
次に選択部13は、算出した書き起こしに要する累積作業時間stと書き起こし作業時間の許容値Tを比較し、累積作業時間stが許容値T以下か否かを判定する(ステップS307)。その結果、選択部13は、累積作業時間stが許容値T以下と判定した場合(ステップS307:Yes)、対象文字列wを選択する(ステップS308)。一方、選択部13は、累積作業時間stが許容値Tより大きいと判定した場合(ステップS307:No)、対象文字列wを選択しない。
次に選択部13は、認識部12で得られた認識結果に、次の認識文字列があるか否かを判定する(ステップS309)。その結果、選択部13は、次の認識文字列があると判定した場合(ステップS309:Yes)、次の認識文字列を対象文字列wとし(ステップS310)、ステップS305〜S309までの処理を繰り返す。一方、選択部13は、次の認識文字列がないと判定した場合(ステップS309:No)、処理を終了する。
図10は、本実施形態に係る認識文字列選択結果D2のデータ例(その2)を示す図である。図10には、(式3)により算出した書き起こしに要する作業時間tに基づき、認証文字列を選択した選択結果が示されている。このように、選択部13は、例えば、認識ID、認識文字列、認識文字列の信頼度、書き起こしに要する作業時間t、累積作業時間st、及び選択結果などを含む認識文字列選択結果D2を得る。
図11は、本実施形態に係る認識文字列選択時の処理例(その3)を示すフローチャートである。図11には、選択部13が、書き起こしに要する作業量に関するパラメータとして、書き起こしに要する作業コストの許容値を用いる場合の処理例が示されている。
図11に示すように、選択部13は、まず、作業者Uから、書き起こしに要する作業コストの許容値Cの設定を受け付ける(ステップS401)。
図12は、本実施形態に係る書き起こし作業コストの許容値Cの設定例を示す図である。図12に示すように、作業者Uは、例えば、0から最高値の間の値を指定可能なスライド式のUI(スライドバー)を介して、書き起こしに要する作業コストの許容値Cを設定する。このように、選択部13は、上記UIを画面に表示し、作業者Uからの設定を受け付ける。なお、指定可能な値の最高値には、例えば、予め決められた値を用いる。また、指定可能な時間の最高値には、次のような方法で算出した値を用いてもよい。例えば、一文字あたりの作業時間を決めておき、認識部12で得られた認識文字列の全文字数と一文字あたりの作業時間との積を算出し、算出した値を用いてもよい。また、認識部12が、認識結果として各認識文字列の発話時間(終端時刻から始端時刻を減算した時間)を出力する場合、出力された各認識文字列の発話時間を総和した時間と、単位時間あたりの作業コストの積を算出し、算出した値を用いてもよい。
図11の説明に戻る。次に選択部13は、認識部12で得られた認識結果を、認識文字列の信頼度の降順にソートする(ステップS402)。次に選択部13は、書き起こしに要する作業コストの累積を示す累積作業コストscを初期化する(ステップS403)。
次に選択部13は、降順にソートした認識結果のうち、最初の認識文字列を対象文字列wとし(ステップS404)、対象文字列wの書き起こしに要する作業コストcを算出する(ステップS405)。このとき、選択部13は、例えば、対象文字列wの文字数を用いた以下の(式4)により、対象文字列wの書き起こしに要する作業コストcを算出する。
書き起こしに要する作業コストc = γ×(対象文字列wの文字数) ・・・ (式4)
なお、γには、例えば、1文字を書き起こすのにかかる平均コストを用いる。
また、選択部13は、例えば、認識部12が、認識結果として各認識文字列の始端時刻と終端時刻とを出力する場合、(式5)により、対象文字列wの書き起こしに要する作業コストcを算出してもよい。
書き起こしに要する作業コストc = ζ×(対象文字列wの終端時刻―対象文字列wの始端時刻) ・・・ (式5)
なお、ζには、例えば、1形態素(1つの認識単位)を書き起こすのにかかる平均コストを用いる。
次に選択部13は、対象文字列wの書き起こしに要する作業コストcから、書き起こしに要する累積作業コストscを算出する(ステップS406)。このとき選択部13は、例えば、書き起こしに要する累積作業コストscに、(式4)又は(式5)で算出した対象文字列wの書き起こしに要する作業コストcを加算し累積する。
次に選択部13は、算出した書き起こしに要する累積作業コストscと書き起こし作業コストの許容値Cを比較し、累積作業コストscが許容値C以下か否かを判定する(ステップS407)。その結果、選択部13は、累積作業コストscが許容値C以下と判定した場合(ステップS407:Yes)、対象文字列wを選択する(ステップS408)。一方、選択部13は、累積作業コストscが許容値Cより大きいと判定した場合(ステップS407:No)、対象文字列wを選択しない。
次に選択部13は、認識部12で得られた認識結果に、次の認識文字列があるか否かを判定する(ステップS409)。その結果、選択部13は、次の認識文字列があると判定した場合(ステップS409:Yes)、次の認識文字列を対象文字列wとし(ステップS410)、ステップS405〜S409までの処理を繰り返す。一方、選択部13は、次の認識文字列がないと判定した場合(ステップS409:No)、処理を終了する。
図13は、本実施形態に係る認識文字列選択結果D2のデータ例(その3)を示す図である。図13には、(式5)により算出した書き起こしに要する作業コストcに基づき、認証文字列を選択した選択結果が示されている。このように、選択部13は、例えば、認識ID、認識文字列、認識文字列の信頼度、書き起こしに要する作業コストc、累積作業コストsc、及び選択結果などを含む認識文字列選択結果D2を得る。
(生成部14)
生成部14は、選択部13において、選択された認識文字列と選択されなかった認識文字列とを用いて、書き起こし文を生成する。
以下に、生成部14が書き起こし文を生成する処理について説明する。図14は、本実施形態に係る書き起こし文生成時の処理例を示すフローチャートである。また、図15は、本実施形態に係る書き起こし文のデータ形式例を示す図である。
図14に示すように、生成部14は、まず、書き起こし文kを初期化する(ステップS501)。書き起こし文kは、例えば、データ形式がHTML(HyperText Markup Language)の場合、図15に示すように、DIV要素として作成される。
次に生成部14は、認識部12で得られた認識結果のうち、最初の認識文字列を対象文字列wとし(ステップS502)、対象文字列wが選択部13において選択されているか否かを判定する(ステップS503)。その結果、生成部14は、対象文字列wが選択されていると判定した場合(ステップS503:Yes)、対象文字列wから選択要素sを作成し(ステップS504)、作成した選択要素sを書き起こし文kに追加する(ステップS505)。選択要素sは、例えば、図15に示すように、ID属性を、対象文字列wの識別ID、また、CLASS属性を、選択要素sを示す文字列(例えば「selected」)とするSPAN要素として作成される。一方、生成部14は、対象文字列wが選択されていないと判定した場合(ステップS503:No)、対象文字列wから非選択要素nsを作成し(ステップS506)、作成した非選択要素nsを書き起こし文kに追加する(ステップS507)。非選択要素nsは、例えば、図15に示すように、ID属性を、対象文字列wの識別ID、また、CLASS属性を、非選択要素nsを示す文字列(例えば「not_selected」)とするSPAN要素として作成される。
次に生成部14は、認識部12で得られた認識結果に、次の認識文字列があるか否かを判定する(ステップS508)。その結果、生成部14は、次の認識文字列があると判定した場合(ステップS508:Yes)、次の認識文字列を対象文字列wとし(ステップS509)、ステップS503〜S508までの処理を繰り返す。一方、生成部14は、次の認識文字列がないと判定した場合(ステップS508:No)、処理を終了する。
図16は、本実施形態に係る書き起こし文kの表示例を示す図である。図16に示すように、生成部14では、選択要素sの文字列と非選択要素nsの文字列との区別が明確となるように、異なる態様で表示可能な書き起こし文kを生成してもよい。例えば、図16(A)には、非選択要素nsの文字列に下線を付した場合の表示例が示されている。また、図16(B)には、選択要素sの文字列より、非選択要素nsの文字列の文字サイズを小さくした場合の表示例が示されている。また、図16(C)には、非選択要素nsの文字列に網掛けを施した場合の表示例が示されている。また、図16(D)には、非選択要素nsの文字列を所定の文字(図中では黒丸)に置き換えた場合の表示例が示されている。この他にも、文字の濃さ、色、書体、背景色などを変えた表示例などがある。また、認識部12が、認識単位ごとに、信頼度が高い第N候補(Nは1以上の整数)までの認識文字列を出力する場合、選択されなかった認識文字列に対して、第N候補までの認識文字列を、作業者Uが選択可能な状態で表示される書き起こし文kを生成してもよい。
(設定部15)
設定部15は、生成部14で生成された書き起こし文kの非選択要素nsに基づき、文字挿入位置(文字入力の開始位置)を設定する。このとき設定部15は、検出した現在の文字挿入位置と、書き起こし文内において、選択部13で選択された認識文字列に相当する選択要素と選択部13で選択されなかった認識文字列に相当する非選択要素との位置関係とに基づき、文字挿入位置を設定する。
以下に、設定部15が文字挿入位置を設定する処理について説明する。図17は、本実施形態に係る文字挿入位置設定時の処理例を示すフローチャートである。
図17に示すように、設定部15は、まず、作業者Uから、非選択要素nsの文字への移動指示を受け付ける(ステップS601)。このとき設定部15は、例えば、表示された書き起こし文内で所定のキー(例えば「タブキー」)が押下されたことを検出した場合、移動が指示されたと判断し、指示を受け付ける。
次に設定部15は、書き起こし文内の現在の文字挿入位置cpを検出する(ステップS602)。なお、現在の文字挿入位置cpは、書き起こし文内の文字列における現在の文字挿入位置cpである。例えば、書き起こし文が表示される画面上では、カーソル位置(例えば「縦棒が点滅する位置」)に相当する。
次に設定部15は、検出した現在の文字挿入位置cpが選択要素内か否かを判定する(ステップS603)。その結果、設定部15は、現在の文字挿入位置cpが選択要素内であると判定した場合(ステップS603:Yes)、文字挿入位置cpより後方で、文字挿入位置cpに最も近い位置にある非選択要素nsを検出する(ステップS604)。一方、設定部15は、文字挿入位置cpが選択要素内でないと判定した場合(ステップS603:No)、文字挿入位置cpより後方で、文字挿入位置cpに最も近い位置にある選択要素sを検出する(ステップS605)。その後、設定部15は、検出した選択要素sより後方で、検出した選択要素sに最も近い位置にある非選択要素nsを検出する(ステップS606)。次に設定部15は、検出した非選択要素nsの先頭位置nspに文字挿入位置cpを移動する(ステップS607)。
なお、設定部15は、非選択要素nsの先頭位置nspに文字挿入位置cpを移動した後に、非選択要素nsにより後方で連続する他の非選択要素が存在する場合、非選択要素nsの文字列と他の非選択要素の文字列とを異なる態様で表示させてもよい。例えば、設定部15は、非選択要素nsの文字列と他の非選択要素の文字列とを、別の背景色によりハイライト表示させてもよい。
(探索部16)
探索部16は、文字挿入位置cpにおいて、作業者Uによる文字入力が開始された場合に、入力文字に対応する音声位置を探索する。
以下に、探索部16が音声位置を探索する処理について説明する。図18は、本実施形態に係る音声位置探索時の処理例を示すフローチャートである。
図18に示すように、設定部15は、まず、作業者Uから、現在の文字挿入位置cpに対応する音声位置の探索指示を受け付ける(ステップS701)。このとき探索部16は、例えば、表示された書き起こし文内でEnterキーが押下されたことを検出した場合、探索が指示されたと判断し、指示を受け付ける。
次に探索部16は、書き起こし文内の現在の文字挿入位置cpを検出する(ステップS702)。次に探索部16は、検出した現在の文字挿入位置cpが選択要素内か否かを判定する(ステップS703)。
その結果、探索部16は、現在の文字挿入位置cpが選択要素内であると判定した場合(ステップS703:Yes)、選択要素sの始端時刻を音声位置pとする(ステップS704)。一方、探索部16は、現在の文字挿入位置cpが選択要素内でないと判定した場合(ステップS703:No)、所定の音声認識技術(例えば「強制アライメント法」)を用いて、音声位置pを推定する(ステップS705)。このとき探索部16は、書き起こし文字k、文字挿入位置cpがある非選択要素nsに該当する認識文字列の始端時刻、及び現在の音声再生位置などから、音声認識技術により推定する。
(再生部17)
再生部17は、探索部16で探索された音声位置pから音声を再生する。
<まとめ>
以上のように、本実施形態に係るテキスト生成装置100によれば、音声認識結果に基づき算出した認識文字列の信頼度と、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
これによって、本実施形態に係るテキスト生成装置100は、作業者Uが指定した作業条件に応じて、音声認識結果の出力を調整する。本実施形態に係るテキスト生成装置100は、調整した出力に対して、作業者Uが追加・修正を行う場合に、音声認識結果を用いて入力文字と音声とを同期することで、書き起こし作業が行える環境を提供する。
その結果、本実施形態に係るテキスト生成装置100は、書き起こしの作業条件に応じた適度な音声認識結果を、書き起こし作業時に利用することができ、音声認識結果に対して、容易に文字の追加や修正が行える。これにより、本実施形態に係るテキスト生成装置100は、作業者Uに対する書き起こし作業の負担を軽減できる。
[第2の実施形態]
<概略>
本実施形態に係るテキスト生成装置が有する機能(テキスト生成機能)について説明する。本実施形態に係るテキスト生成装置は、認識部で得られた認識結果を、文単位、又は、時間単位で結合し、結合した結果を、書き起こし文に用いる点で、上記実施形態と異なる。より具体的には、本実施形態に係るテキスト生成装置は、認識文字列の文末表現に基づき、認識結果を文単位に結合した結果を書き起こし文に用いる。又は、本実施形態に係るテキスト生成装置は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合した結果を、書き起こし文に用いる。
以下に、本実施形態に係るテキスト生成装置が有する機能の構成とその動作について説明する。なお、以下の説明では、上記実施形態と異なる事項について説明し、同じ事項については同一符号を付し、その説明を省略する。
《構成》
図19は、本実施形態に係るテキスト生成装置100の機能構成例を示す図である。図19に示すように、本実施形態に係るテキスト生成装置100は、第1の実施形態の機能構成に対して、結合部21及び認識結合結果保持部22などを、さらに有する。
結合部21は、認識部12で得られた認識結果(認識結果保持部18に記憶された認識結果)を、文単位、又は、時間単位で結合し、結合した結果を認識結合結果保持部22に記憶する。なお、認識結合結果保持部22は、例えば、テキスト生成装置100が備える記憶装置の所定の記憶領域に相当する。また、選択部13や探索部16は、認識結合結果保持部22に記憶された認識結合結果を用いる。
以下に、本実施形態に係るテキスト生成装置100で実行されるテキスト生成時の基本処理について説明する。
《処理》
図20は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図20に示すように、取得部11は、音声を取得する(ステップS801)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS802)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
次に結合部21は、認識部12の認識結果を、所定の文単位、又は、所定の時間単位で結合する(ステップS803)。その結果、結合された認識文字列と結合後の認識文字列の信頼度は、認識結合結果として認識結合結果保持部22に記憶される。次に選択部13は、書き起こし作業の作業条件に関する各種パラメータ(作業条件パラメータ)と、認識結合結果保持部22に記憶された認識結合結果の信頼度(結合後の認識文字列の信頼度)とに基づき、書き起こし文に用いる、少なくとも1つの認識文字列を選択する(ステップS804)。このとき選択部13は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。
次に生成部14は、選択部13で選択された認識文字列と、選択部13で選択されなかった認識文字列とを用いて、書き起こし文を生成する(ステップS805)。次に設定部15は、選択部13で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Uから受け付けた設定に従い、作業者Uによる文字挿入位置を設定する(ステップS806)。次に探索部16は、設定部15で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する(ステップS807)。
次に再生部17は、作業者Uから受け付けた指定に従い、探索部16で探索された音声位置から音声を再生する(ステップS808)。その後、テキスト生成装置100は、作業者Uからの文字入力(追加・修正)を受け付ける(ステップS809)。
本実施形態に係るテキスト生成装置100は、作業者Uから書き起こし終了の指示を受け付けると(ステップS810:Yes)、処理を終了する。一方、テキスト生成装置100は、作業者Uから書き起こし終了の指示が行われるまで(ステップS810:No)、ステップS807〜S809までの処理を繰り返す。
<詳細>
ここからは、主に結合部21と選択部13の詳細について説明する。
《各機能部の詳細》
(結合部21)
結合部21は、認識文字列の文末表現に基づき、認識結果を文単位に結合し、認識結合結果を得る。又は、結合部21は、認識文字列の始端時刻と終端時刻とに基づき、認識結果を所定の時間単位に結合し、結合した文字列(結合後の認識文字列)と結合結果の信頼度とを含む認識結合結果を得る。
以下に、結合部21が認識結果を結合する処理について説明する。図21は、本実施形態に係る認識結果結合時の処理例を示すフローチャートである。
図21に示すように、結合部21は、まず、認識部12で得られた認識結果(認識結果保持部18に記憶された認識結果)の一時結合結果crを初期化する(ステップS901)。次に結合部21は、認識部12で得られた認識結果のうち、最初の認識結果を対象認識結果rとする(ステップS902)。次に結合部21は、一時結合結果crに対象認識結果rを追加する(ステップS903)。
次に結合部21は、結合を完了するか否かを判定する(ステップS904)。このとき結合部21は、文単位に結合する場合と時間単位に結合する場合とで判定処理が異なる。
(A)文単位に結合する場合の判定処理
結合部21は、対象認識結果rの認識文字列が文末か否かの判定結果に基づき、結合を完了するか否かを判定する。この場合、結合部21は、対象認識結果rの認識文字列が文末である場合、結合を完了すると判定する(ステップS904:Yes)。一方、結合部21は、対象認識結果rの認識文字列が文末でない場合、結合を完了しないと判定する(ステップS904:No)。なお、文末の判定方法には、例えば、「。」(句点)、「.」(ピリオド)、又は「?」(疑問符)などの文の終わりを表す文字又は記号が、認識文字列に含まれているか否かにより判定する方法などがある。また、これらの文字又は記号が含まれていない場合には、例えば、「です」や「ます」などの所定の文末表現が認識文字列に含まれているか否かにより判定してもよい。
(B)時間単位に結合する場合の判定処理
結合部21は、認識結果として得られた認識文字列の始端時刻と終端時刻とに基づき、結合を完了するか否かを判定する。この場合、結合部21は、対象認識結果rに相当する認識文字列の始端時刻から、対象認識結果rのひとつ前に一時結合結果crに追加された認識結果に相当する認識文字列の終端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定する(ステップS904:Yes)。一方、結合部21は、経過時間が、所定の時間未満の場合、結合を完了しないと判定する(ステップS904:No)。なお、結合部21は、対象認識結果rの始端時刻から、一時結合結果crに追加された最初の認識結果に相当する認識文字列の始端時刻までの経過時間が、所定の時間以上の場合、結合を完了すると判定してもよい。
その結果、結合部21は、結合を完了すると判定した場合(ステップS904:Yes)、一時結合結果crの信頼度を算出する(ステップS905)。なお、一時結合結果crの信頼度は、一時結合結果crに追加された認識結果に相当する認識文字列の信頼度に基づき算出する。例えば、一時結合結果crに追加された認識結果に相当する認識文字列の信頼度の平均値を算出し、算出した値を一時結合結果crの信頼度とする。一方、結合部21は、結合を完了しないと判定した場合(ステップS904:No)、後述するステップS908の処理へ移行し、ステップS905〜S907までの処理をスキップする。
次に結合部21は、一時結合結果crに相当する認識文字列を結合した文字列(結合後の認識文字列)と、算出した一時結合結果crの信頼度とを、認識結合結果保持部22に記憶し(ステップS906)、一時結合結果crを初期化する(ステップS907)。
次に結合部21は、認識部12で得られた認識結果に、次の認識結果があるか否かを判定する(ステップS908)。その結果、結合部21は、次の認識結果があると判定した場合(ステップS908:Yes)、次の認識結果を対象認識結果rとし(ステップS909)、ステップS903〜S908までの処理を繰り返す。一方、結合部21は、次の認識結果がないと判定した場合(ステップS908:No)、一時結合結果crに認識結果が残っているか否かを判定する(ステップS910)。その結果、結合部21は、一時結合結果crに認識結果が残っていると判定した場合(ステップS910:Yes)、ステップS905の処理へ移行する。一方、結合部21は、一時結合結果crに認識結果が残っていないと判定した場合(ステップS910:No)、処理を終了する。
(選択部13)
選択部13は、書き起こし精度に関するパラメータと認識結合結果の信頼度(結合後の認識文字列の信頼度)、又は、書き起こしに要する作業量に関するパラメータと認識結合結果の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
<まとめ>
以上のように、本実施形態に係るテキスト生成装置100によれば、文単位、又は、所定の時間単位ごとに結合した認識文字列の信頼度と、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
その結果、本実施形態に係るテキスト生成装置100は、第1の実施形態と同様に、容易に文字の追加や修正が行え、作業者Uに対する書き起こし作業の負担を軽減できる。
[第3の実施形態]
本実施形態に係るテキスト生成装置が有する機能(テキスト生成機能)について説明する。本実施形態に係るテキスト生成装置は、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、又は、書き起こしに要する作業量)とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する点で、上記実施形態と異なる。
以下に、本実施形態に係るテキスト生成装置が有する機能の構成とその動作について説明する。なお、以下の説明では、上記実施形態と異なる事項について説明し、同じ事項については同一符号を付し、その説明を省略する。
《構成》
図22は、本実施形態に係るテキスト生成装置100の機能構成例を示す図である。図22に示すように、本実施形態に係るテキスト生成装置100は、第1の実施形態の機能構成に対して、発話区間情報生成部31及び発話区間情報保持部32などを、さらに有する。
発話区間情報生成部31は、取得部11で取得された音声に対して、各発話を識別する発話ID、発話が開始された時刻(以下「発話開始時刻」という)、及び発話している発話者を識別する発話者IDなどを含む発話区間情報を生成し、生成した発話区間情報を発話区間情報保持部32に記憶する。なお、発話区間情報保持部32は、例えば、テキスト生成装置100が備える記憶装置の所定の記憶領域に相当する。また、選択部13や探索部16は、発話区間情報保持部32に記憶された発話区間情報を用いる。
以下に、本実施形態に係るテキスト生成装置100で実行されるテキスト生成時の基本処理について説明する。
《処理》
図23は、本実施形態に係るテキスト生成時の基本処理例を示すフローチャートである。図23に示すように、取得部11は、音声を取得する(ステップS1001)。次に認識部12は、取得部11で取得された音声を認識し、認識単位ごとの認識文字列と認識文字列の信頼度を算出する(ステップS1002)。その結果、認識文字列と認識文字列の信頼度は、認識結果保持部18に記憶される。
次に発話区間情報生成部31は、取得部11で取得された音声に対して、発話ごとに、発話ID、発話開始時刻、及び発話者IDを含む発話区間情報を生成する(ステップS1003)。その結果、発話区間情報は、発話区間情報保持部32に記憶される。
次に選択部13は、発話区間情報保持部32に記憶された発話区間情報に基づき、発話者、又は、発話区間ごとに、書き起こし作業の作業条件に関する各種パラメータ(作業条件パラメータ)と、認識結果保持部18に記憶された認識文字列の信頼度とに基づき、書き起こし文に用いる、少なくとも1つの認識文字列を選択する(ステップS1004)。このとき選択部13は、書き起こし精度に関するパラメータと認識文字列の信頼度、又は、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度の、いずれかのパラメータと信頼度との組み合わせに基づき、書き起こし文に用いる認識文字列を選択する。次に生成部14は、選択部13で選択された認識文字列と、選択部13で選択されなかった認識文字列とを用いて、書き起こし文を生成する(ステップS1005)。
次に設定部15は、選択部13で選択されなかった認識文字列に対応する書き起こし文に対して、作業者Uから受け付けた設定に従い、作業者Uによる文字挿入位置を設定する(ステップS1006)。次に探索部16は、設定部15で設定された文字挿入位置に対応する音声位置を、認識結果に基づいて探索する(ステップS1007)。
次に再生部17は、作業者Uから受け付けた指定に従い、探索部16で探索された音声位置から音声を再生する(ステップS1008)。その後、テキスト生成装置100は、作業者Uからの文字入力(追加・修正)を受け付ける(ステップS1009)。
本実施形態に係るテキスト生成装置100は、作業者Uから書き起こし終了の指示を受け付けると(ステップS1010:Yes)、処理を終了する。一方、テキスト生成装置100は、作業者Uから書き起こし終了の指示が行われるまで(ステップS1010:No)、ステップS1007〜S1009までの処理を繰り返す。
<詳細>
ここからは、主に発話区間情報生成部31と選択部13の詳細について説明する。
《各機能部の詳細》
(発話区間情報生成部31)
発話区間情報生成部31は、次のような方法で発話者と発話区間とを特定し、発話区間情報を生成する。例えば、発話区間情報生成部31は、音声を聞きながら各発話の発話者と発話開始時刻とを特定した作業者Uからの特定結果を受け付け、受け付けた特定結果から発話区間情報を生成する。また、発話区間情報生成部31は、音響的特徴量に基づく話者認識技術を用いて、発話者と発話区間とを推定し、推定した結果から発話区間情報を生成してもよい。
図24は、本実施形態に係る発話区間情報D3のデータ例を示す図である。図24には、発話区間情報生成部31が、取得部11で取得された音声から、複数の発話者と各発話区間とを特定(推定)した場合に生成されるデータ例が示されている。このように、発話区間情報生成部31は、例えば、発話ID、発話開始時刻、及び発話者IDなどを含む発話区間情報D3を生成する。発話区間情報生成部31は、生成した発話区間情報D3を発話区間情報保持部32に記憶し保管する。
(選択部13)
選択部13は、発話区間情報生成部31で生成された発話区間情報D3に基づき、発話者、又は、発話区間ごとに、認識文字列の信頼度と書き起こし作業の作業条件に関する各種パラメータとに基づき、音声から認識した認識文字列を選択する。より具体的には、選択部13は、発話者、又は、発話区間ごとに、書き起こし精度に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。また、選択部13は、発話者、又は、発話区間ごとに、書き起こしに要する作業量に関するパラメータと認識文字列の信頼度とに基づき、書き起こし文に用いる少なくとも1つの認識文字列を選択する。
以下に、選択部13が認識文字列を選択する処理について説明する。図25は、本実施形態に係る認識文字列選択時の処理例を示すフローチャートである。図25には、選択部13が、発話者ごとの書き起こし精度に関するパラメータとして、書き起こし精度の許容値を用いる場合の処理例が示されている。
図25に示すように、選択部13は、まず、作業者Uから、発話者iごとの書き起こし精度の許容値P(i)(i=1〜M;Mは話者数)の設定を受け付ける(ステップS1101)。
図26は、本実施形態に係る書き起こし精度の許容値P(i)の設定例を示す図である。図26に示すように、作業者Uは、例えば、N段階(図中ではN=5)のうち1つの許容段階を指定可能なスライド式のUI(スライドバー)を介して、発話者ごとの書き起こし精度の許容値P(i)を設定する。このように、選択部13は、上記UIを画面に表示し、作業者Uからの設定を受け付ける。
図25の説明に戻る。次に選択部13は、認識部12で得られた認識結果(認識結果保持部18に記憶された認識結果)のうち、最初の認識文字列を対象文字列wとし(ステップS1102)、対象文字列wの信頼度から、対象文字列wの書き起こし精度wpを算出する(ステップS1103)。このとき、選択部13は、例えば、第1の実施形態で説明した(式1)により、対象文字列wの書き起こし精度wpを算出する。
次に選択部13は、発話区間情報保持部32で記憶された発話区間情報D3に基づき、対象文字列wの発話者wiを特定する(ステップS1104)。このとき選択部13は、例えば、発話区間情報D3の中で、発話区間nの開始時刻と次の発話区間n+1の開始時刻との間に、認識文字列の始端時刻が存在する発話区間nを抽出し、発話区間nの発話者IDから発話者wiを特定する。
次に選択部13は、算出した対象文字列wの書き起こし精度wpと、特定した発話者wiの書き起こし精度の許容値P(wi)とを比較し、書き起こし精度wpが許容値P(wi)以上か否かを判定する(ステップS1105)。その結果、選択部13は、書き起こし精度wpが許容値P(wi)以上と判定した場合(ステップS1105:Yes)、対象文字列wを選択する(ステップS1106)。一方、選択部13は、書き起こし精度wpが許容値P(wi)未満と判定した場合(ステップS1105:No)、対象文字列wを選択しない。
次に選択部13は、認識部12で得られた認識結果に、次の認識文字列があるか否かを判定する(ステップS1107)。その結果、選択部13は、次の認識文字列があると判定した場合(ステップS1107:Yes)、次の認識文字列を対象文字列wとし(ステップS1108)、ステップS1103〜S1107までの処理を繰り返す。一方、選択部13は、次の認識文字列がないと判定した場合(ステップS1107:No)、処理を終了する。
なお、選択部13は、上述したように、発話者ごとの書き起こし作業量に関するパラメータを用いて、認識文字列を選択してもよい。また、選択部13は、発話区間ごとの書き起こし精度に関するパラメータ、又は、書き起こし作業量に関するパラメータのいずれかのパラメータを用いて、認識文字列を選択してもよい。
<まとめ>
以上のように、本実施形態に係るテキスト生成装置100によれば、発話者、又は、発話区間ごとに、作業者Uが指定した書き起こし作業の作業条件に関する各種パラメータ(書き起こし精度、及び、書き起こしに要する作業量の、少なくとも一方のパラメータ)と、認識文字列の信頼度とに基づき、音声から認識した認識文字列を選択し、書き起こし文を生成する。
その結果、本実施形態に係るテキスト生成装置100は、第1の実施形態と同様に、容易に文字の追加や修正が行え、作業者Uに対する書き起こし作業の負担を軽減できる。
<装置>
図27は、上記実施形態に係るテキスト生成装置100の構成例を示す図である。図27に示すように、実施形態に係るテキスト生成装置100は、CPU(Central Processing Unit)101、及び主記憶装置102などを備える。また、テキスト生成装置100は、補助記憶装置103、通信IF(interface)104、外部IF105、及びドライブ装置107などを備える。テキスト生成装置100は、各デバイスがバスBを介して相互に接続される。このように、実施形態に係るテキスト生成装置100は、一般的な情報処理装置に相当する。
CPU101は、装置全体の制御や搭載機能を実現するための演算装置である。主記憶装置102は、プログラムやデータなどを所定の記憶領域に保持する記憶装置(メモリ)である。主記憶装置102は、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)などである。また、補助記憶装置103は、主記憶装置102より容量の大きい記憶領域を備える記憶装置である。補助記憶装置103は、例えば、HDD(Hard Disk Drive)やメモリカード(Memory Card)などの不揮発性の記憶装置である。よって、CPU101は、例えば、補助記憶装置103から主記憶装置102上に、プログラムやデータを読み出し、処理を実行することで、装置全体の制御や搭載機能を実現する。
通信IF104は、装置をデータ伝送路Nに接続するインタフェースである。これにより、テキスト生成装置100は、データ伝送路Nを介して接続される他の外部機器(他の情報処理装置)とデータ通信が行える。外部IF105は、装置と外部装置106との間でデータを送受信するためのインタフェースである。外部装置106には、例えば、処理結果などの各種情報を表示する表示装置(例えば「液晶ディスプレイ」)や操作入力を受け付ける入力装置(例えば「テンキー」、「キーボード」、又は「タッチパネル」)などがある。ドライブ装置107は、記憶媒体108の書き込み又は読み取りを行う制御装置である。記憶媒体108は、例えば、フレキシブルディスク(FD)、CD(Compact Disk)、及びDVD(Digital Versatile Disk)などである。
また、上記実施形態に係るテキスト生成機能は、例えば、テキスト生成装置100において、プログラムを実行することで、上記各機能部が連携動作することで実現される。この場合、プログラムは、実行環境の装置(コンピュータ)が読み取り可能な記憶媒体に、インストール可能な形式又は実行可能な形式のファイルで記録され提供される。例えば、テキスト生成装置100の場合には、プログラムは、上記各機能部を含むモジュール構成となっており、CPU101が記憶媒体108からプログラムを読み出し実行することで、主記憶装置102のRAM上に各機能部が生成される。なお、プログラムの提供方法は、この限りでない。例えば、プログラムを、インターネットなどに接続された外部機器に格納し、データ伝送路N経由でダウンロードする方法であってもよい。また、主記憶装置102のROMや補助記憶装置103のHDDなどに予め組み込んで提供する方法であってもよい。なお、ここでは、テキスト生成機能をソフトウェアの実装により実現する例を説明したが、この限りでない。例えば、テキスト生成機能が有する各機能部の一部又は全部を、ハードウェアの実装により実現してもよい。
また、上記実施形態では、テキスト生成装置100が、取得部11、認識部12、選択部13、生成部14、設定部15、探索部16、再生部17、認識結果保持部18、結合部21、認識結合結果保持部22、発話区間情報生成部31、又は発話区間情報保持部32などの一部又は全部を有する構成について説明を行ったが、この限りでない。例えば、テキスト生成装置100が、これらの機能部の一部の機能を有する外部機器と、通信IF104を介して接続され、接続された外部機器とデータ通信を行うことで、各機能部が連携動作し、上記テキスト生成機能を提供する構成であってもよい。これにより、本実施形態に係るテキスト生成装置100は、クラウド環境などにも適用できる。
最後に、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
11 取得部
12 認識部
13 選択部
14 生成部
15 設定部
16 探索部
17 再生部
18 認識結果保持部
21 結合部
22 認識結合結果保持部
31 発話区間情報生成部
32 発話区間情報保持部
100 テキスト生成装置

Claims (19)

  1. 取得した音声を認識し、認識単位ごとの認識文字列を得る認識部と、
    書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する選択部と、
    選択された前記認識文字列を用いて、前記書き起こし文を生成する生成部と、
    を備えるテキスト生成装置。
  2. 前記選択部は、
    前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度の組み合わせに基づき、前記認識文字列を選択する、
    請求項1に記載のテキスト生成装置。
  3. 前記選択部は、
    前記パラメータを前記認識文字列の信頼度に基づいて累積した累積作業量と、前記パラメータの許容値とを比較し、前記累積作業量が前記許容値以下の場合に、前記認識文字列を選択する、
    請求項1に記載のテキスト生成装置。
  4. 前記選択部は、
    前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
    前記認識文字列の文字数に基づき、前記書き起こし作業時間を算出する、
    請求項3に記載のテキスト生成装置。
  5. 前記認識部は、
    前記認識文字列の始端時刻と終端時刻とを、さらに得て、
    前記選択部は、
    前記書き起こしに要する作業量のパラメータに、書き起こし作業時間を用い、
    前記認識文字列の始端時刻と終端時刻とに基づき、前記書き起こし作業時間を算出する、
    請求項3に記載のテキスト生成装置。
  6. 前記選択部は、
    前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
    前記認識文字列の文字数に基づき、書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出する、
    請求項3に記載のテキスト生成装置。
  7. 前記認識部は、
    前記認識文字列の始端時刻と終端時刻とを、さらに得て、
    前記選択部は、
    前記書き起こしに要する作業量のパラメータに、書き起こし作業コストを用い、
    前記認識文字列の始端時刻と終端時刻に基づき、書き起こし作業時間を算出し、算出した前記書き起こし作業時間と、単位時間あたりの作業コストとに基づき、前記書き起こし作業コストを算出する、
    請求項3に記載のテキスト生成装置。
  8. 前記生成部は、
    前記選択部で選択されなかった前記認識文字列のうち、前記認識文字列の信頼度の高い第N候補(Nは1以上の整数)までの前記認識文字列を、作業者が選択可能な状態で表示される前記書き起こし文を生成する、
    請求項1に記載のテキスト生成装置。
  9. 前記選択部で選択されなかった前記認識文字列に対応する前記書き起こし文の位置において、作業者による文字入力の開始位置に相当する文字挿入位置を設定する設定部を、さらに備え、
    前記設定部は、
    検出した現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記文字挿入位置を設定する、
    請求項1に記載のテキスト生成装置。
  10. 前記設定部は、
    検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
    請求項9に記載のテキスト生成装置。
  11. 前記設定部は、
    検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内でない場合に、前記文字挿入位置より後方で、前記文字挿入位置に最も近い位置の前記選択要素を検出し、検出した前記選択要素より後方で、前記選択要素に最も近い位置の前記非選択要素を検出し、検出した前記非選択要素の先頭位置に前記文字挿入位置を移動する、
    請求項9に記載のテキスト生成装置。
  12. 前記設定部で設定された前記文字挿入位置において、作業者による文字入力が開始された場合に、入力された文字に対応する音声位置を探索する探索部と、
    前記探索部で探索された前記音声位置から前記音声を再生する再生部と、をさらに備え、
    前記探索部は、
    前記設定部で検出された現在の前記文字挿入位置と、前記書き起こし文内において、前記選択部で選択された前記認識文字列に相当する選択要素と前記選択部で選択されなかった前記認識文字列に相当する非選択要素との位置関係とに基づき、前記音声位置を探索する、
    請求項9に記載のテキスト生成装置。
  13. 前記探索部は、
    検出した現在の前記文字挿入位置が前記選択要素内か否かを判定し、前記文字挿入位置が前記選択要素内である場合に、前記選択要素に相当する前記認識文字列の始端時刻を、前記音声位置とする、
    請求項12に記載のテキスト生成装置。
  14. 前記認識部で得られた前記認識文字列を、文単位、又は、所定の時間単位に結合し、結合した前記認識文字列及び結合した前記認識文字列の信頼度を得る結合部を、さらに備え、
    前記選択部は、
    前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
    請求項1に記載のテキスト生成装置。
  15. 前記選択部は、
    前記書き起こしに要する作業量のパラメータ及び結合した前記認識文字列の信頼度に基づき、前記文単位、又は、前記時間単位に結合した前記認識文字列を選択する、
    請求項14に記載のテキスト生成装置。
  16. 前記音声に対する、各発話を識別する情報、各発話の発話開始時刻、各発話の発話者を識別する情報を含む発話区間情報を生成する生成部を、さらに備え、
    前記選択部は、
    前記発話者、又は、前記発話ごとに、前記認識文字列を選択する、
    請求項1に記載のテキスト生成装置。
  17. 前記選択部は、
    前記発話者、又は、前記発話ごとに、前記書き起こしに要する作業量のパラメータと前記認識文字列の信頼度に基づき、前記認識文字列を選択する、
    請求項16に記載のテキスト生成装置。
  18. 取得した音声を認識し、認識単位ごとの認識文字列を得る認識工程と、
    書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する選択工程と、
    選択された前記認識文字列を用いて、前記書き起こし文を生成する生成工程と、
    を含むテキスト生成方法。
  19. コンピュータを、
    取得した音声を認識し、認識単位ごとの認識文字列を得る手段と、
    書き起こしに要する作業量のパラメータに基づき、書き起こし文に用いる少なくとも1つの前記認識文字列を選択する手段と、
    選択された前記認識文字列を用いて、前記書き起こし文を生成する手段、
    として機能させるテキスト生成プログラム。
JP2017120758A 2017-06-20 2017-06-20 テキスト生成装置、方法、及びプログラム Active JP6499228B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017120758A JP6499228B2 (ja) 2017-06-20 2017-06-20 テキスト生成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017120758A JP6499228B2 (ja) 2017-06-20 2017-06-20 テキスト生成装置、方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013077576A Division JP2014202848A (ja) 2013-04-03 2013-04-03 テキスト生成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017187797A JP2017187797A (ja) 2017-10-12
JP6499228B2 true JP6499228B2 (ja) 2019-04-10

Family

ID=60045549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017120758A Active JP6499228B2 (ja) 2017-06-20 2017-06-20 テキスト生成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6499228B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230082325A1 (en) * 2020-02-26 2023-03-16 Nec Corporation Utterance end detection apparatus, control method, and non-transitory storage medium
JPWO2023100433A1 (ja) * 2021-11-30 2023-06-08

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4536481B2 (ja) * 2004-10-25 2010-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータシステム、修正作業を支援するための方法、及びプログラム
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription

Also Published As

Publication number Publication date
JP2017187797A (ja) 2017-10-12

Similar Documents

Publication Publication Date Title
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US9236045B2 (en) Methods and apparatus for proofing of a text input
JP5703256B2 (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP6003971B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
US20060095263A1 (en) Character string input apparatus and method of controlling same
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP5818753B2 (ja) 音声対話システム及び音声対話方法
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2009116107A (ja) 情報処理装置及び方法
JP2007178692A (ja) 文字入力装置および方法
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP2008083410A (ja) 音声認識装置及びその方法
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190314

R151 Written notification of patent or utility model registration

Ref document number: 6499228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151