JP2020072367A

JP2020072367A - 情報処理システムおよび文字起こし方法

Info

Publication number: JP2020072367A
Application number: JP2018204832A
Authority: JP
Inventors: 永瀬　哲也; Tetsuya Nagase; 哲也永瀬
Original assignee: Jx Wind Co Ltd
Current assignee: Jx Wind Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-07
Anticipated expiration: 2038-10-31
Also published as: JP6511189B1

Abstract

【課題】文字起こし対象の音声の内容の秘匿性を高める。【解決手段】管理装置１２は、文字起こしの対象の音声が録音された対象音声データを複数の区間に係る複数の区間音声データに分割する。管理装置１２は、複数の区間音声データの少なくとも１つとダミー音声データの組を作業者装置１６へ提供する。管理装置１２は、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータとを受け付ける。管理装置１２は、受け付けたテキストデータのうち、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータを用いて、上記対象の音声を文字起こししたテキストデータを生成する。【選択図】図１

Description

この発明は、データ処理技術に関し、特に情報処理システムおよび文字起こし方法に関する。

音声として記録された会話から文字を起こす文字起こしシステムが提案されている（例えば特許文献１参照）。特許文献１の文字起こしシステムでは、サーバは、会話が録音された音声データを複数の音声区間に係る音声データに分割して、各音声区間の音声データを複数の情報端末に送信する。各情報端末は、音声データから文字起こしした文字列をサーバに出力し、サーバは、個々の文字列を結合して元の音声データの会話全体を文章化した文章データを構築する。

特開２００８−１０７６２４号公報

文字起こしの対象となる音声は、機密事項が含まれる場合等、音声の内容が文字起こしを行う作業者にそのまま伝わることは望ましくないことがある。本発明者は、文字起こし対象の音声の内容の秘匿性を高めるための改善の余地があると考えた。

本発明は本発明者の上記課題認識に基づきなされたものであり、１つの目的は、文字起こし対象の音声の内容の秘匿性を高めることにある。

上記課題を解決するために、本発明のある態様の情報処理システムは、文字起こしの対象の音声が録音された対象音声データを記憶する第１記憶部と、ダミーの音声が録音されたダミー音声データを記憶する第２記憶部と、対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、複数の区間音声データの少なくとも１つとダミー音声データの組を外部装置へ提供する提供部と、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、受付部が受け付けたテキストデータのうち、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成する生成部と、を備える。

本発明の別の態様は、文字起こし方法である。この方法は、文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データとを記憶する情報処理システムが、対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、複数の区間音声データの少なくとも１つとダミー音声データの組を外部装置へ提供するステップと、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータと、ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、受け付けたテキストデータのうち、複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータを用いて、対象の音声を文字起こししたテキストデータを生成するステップと、を実行する。

なお、以上の構成要素の任意の組合せ、本発明の表現を、装置、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、文字起こし対象の音声の内容の秘匿性を高めることができる。

実施例の文字起こしシステムの構成を示す図である。図１の管理装置の機能ブロックを示すブロック図である。音声データの分割例を示す図である。音声データの例を示す図である。区間音声データの割当例を示す図である。作業者による作業結果の例を示す図である。音声データの分割例を示す図である。

実施例の文字起こしシステムは、文字起こしの対象となる音声（ユーザに関する音声であり、秘密情報が含まれうる音声）の少なくとも一部と、ダミーの音声の組を、文字起こしを行う作業者に提供して、それらの音声の両方を作業者に文字起こしさせる。これにより、文字起こしの対象となる音声全体の内容が漏洩するリスクを低減し、文字起こしの対象となる音声の内容の秘匿性を高めることができる。

図１は、実施例の文字起こしシステム１０の構成を示す。文字起こしシステム１０は、文字起こしを支援する情報処理システムであり、管理装置１２と、複数のユーザ端末１４と、複数の作業者装置１６を備える。文字起こしシステム１０の各装置は、ＬＡＮ・ＷＡＮ・インターネット等を含む通信網１８を介して接続される。文字起こしは、音声の内容をテキストに変換することであり、テープ起こしとも言える。

管理装置１２は、文字起こしのウェブサービスを複数のユーザ端末１４に提供する情報処理装置である。管理装置１２の詳細な機能は後述する。

複数のユーザ端末１４は、文字起こしサービスを利用するユーザにより操作される情報処理装置である。複数のユーザ端末１４は、Ａ社に所属するユーザａにより操作されるユーザ端末１４ａと、Ｂ社に所属するユーザｂにより操作されるユーザ端末１４ｂと、Ｃ社に所属するユーザｃにより操作されるユーザ端末１４ｃを含む。ユーザ端末１４は、ＰＣ、タブレット端末、スマートフォンであってもよい。

複数の作業者装置１６は、文字起こしを行う主体の情報処理装置である。実施例では、人間が音声を聞いてその音声をテキスト化する。複数の作業者装置１６は、作業者ｘにより操作される作業者装置１６ｘと、作業者ｙにより操作される作業者装置１６ｙと、作業者ｚにより操作される作業者装置１６ｚを含む。作業者装置１６は、ＰＣ、タブレット端末、スマートフォンであってもよい。

図２は、図１の管理装置１２の機能ブロックを示すブロック図である。本明細書のブロック図で示す各ブロックは、ハードウェア的には、コンピュータのプロセッサ、ＣＰＵ、メモリをはじめとする素子や電子回路、機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。

管理装置１２は、制御部２０、記憶部２２、通信部２４を備える。制御部２０は、文字起こしサービスを提供するための各種データ処理を実行する。記憶部２２は、制御部２０により参照または更新されるデータを記憶する。通信部２４は、所定の通信プロトコルにしたがって外部装置と通信する。制御部２０は、通信部２４を介して、ユーザ端末１４および作業者装置１６とデータを送受信する。

記憶部２２は、対象音声記憶部３０、ダミー音声記憶部３２、割当規則記憶部３４、配信データ記憶部３６、作業結果記憶部３８、文章記憶部４０、正解記憶部４２、評価記憶部４４を含む。なお、記憶部２２に記憶されるデータの少なくとも一部は、管理装置１２とは別の記憶装置（不図示）に記憶されてもよく、管理装置１２は、外部の記憶装置に記憶されたデータを参照・更新してもよいことはもちろんである。

対象音声記憶部３０は、ユーザ端末１４から受け付けた音声データであって、文字起こしの対象となる音声（以下「対象音声」とも呼ぶ。）が録音された対象音声データを記憶する。ダミー音声記憶部３２は、ユーザ端末１４から受け付けた音声データではなく、ダミーの音声（以下「ダミー音声」とも呼ぶ。）が録音されたダミー音声データを記憶する。ダミー音声は、管理装置１２の管理者（例えば文字起こしサービスを提供する企業の担当者）により予め定められた内容の音声である。

正解記憶部４２は、ダミー音声の内容を示すテキストデータを記憶する。なお、実施例では、ダミー音声データは、複数の区間に係る区間毎の音声データ（以下「区間音声データ」とも呼ぶ。）に予め分割され、ダミー音声記憶部３２は、ダミー音声データに基づく複数の区間音声データを記憶することとする。また、正解記憶部４２は、ダミー音声データに基づく複数の区間音声データそれぞれの内容を示すテキストデータ（以下「正解データ」とも呼ぶ。）を記憶することとする。

割当規則記憶部３４は、対象音声データが分割された区間音声データと、ダミー音声データが分割された区間音声データを作業者に割り当てるための規則（以下「割当規則」とも呼ぶ。）を記憶する。割当規則は、割当部５６の構成に関連して後述する。

配信データ記憶部３６は、複数の作業者のそれぞれに配信するデータであり、１つ以上の区間音声データを含む配信データを記憶する。例えば、配信データ記憶部３６は、作業者ｘ（作業者装置１６ｘ）への配信データ、作業者ｙ（作業者装置１６ｙ）への配信データおよび作業者ｚ（作業者装置１６ｚ）への配信データを記憶する。

作業結果記憶部３８は、作業者ｘ（作業者装置１６ｘ）による文字起こしの結果であるテキストデータ、作業者ｙ（作業者装置１６ｙ）による文字起こしの結果であるテキストデータおよび作業者ｚ（作業者装置１６ｚ）による文字起こしの結果であるテキストデータを記憶する。

文章記憶部４０は、後述の文章生成部６２により生成された、対象音声全体の内容を示すテキストデータ（以下「文章データ」とも呼ぶ。）を記憶する。評価記憶部４４は、後述の評価部６６により生成された、複数の作業者に関する評価結果を記憶する。

制御部２０は、要求受付部５０、変換部５２、分割部５４、割当部５６、配信部５８、作業結果受付部６０、文章生成部６２、文章提供部６４、評価部６６を含む。これら複数の機能ブロックの機能を実装したコンピュータプログラムが記憶部２２に格納されてもよい。管理装置１２のプロセッサは、そのコンピュータプログラムをメインメモリに読み出して実行することにより、制御部２０の複数の機能ブロックの機能を発揮してもよい。

要求受付部５０は、音声の文字起こしを要求する複数の要求データを複数のユーザ端末１４から受け付ける。要求受付部５０は、受け付けた要求データを要求元のユーザまたはユーザ端末１４に対応付けて対象音声記憶部３０に保存する。ユーザ端末１４ａから受け付ける要求データは、Ａ社に関する音声（社長の発言や会議の音声等）が録音された対象音声データを含む。また、ユーザ端末１４ｂから受け付ける要求データは、Ｂ社に関する音声が録音された対象音声データを含む。また、ユーザ端末１４ｃから受け付ける要求データは、Ｃ社に関する音声が録音された対象音声データを含む。

変換部５２は、要求受付部５０により受け付けられた複数の対象音声データのうち少なくとも１つの対象音声データを公知の音声変換機能により変換することで、複数の対象音声データの声質（音高、音圧、音色等）を均質化させる。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にし、対象音声の内容の秘匿性を高めることができる。

実施例では、変換部５２は、要求受付部５０により受け付けられた複数の対象音声データの声質を、ダミー音声データの声質と同一または類似するものとなるよう変換する。これにより、複数の区間音声データを聞いた作業者が、それら区間音声データの元の対象音声が同一か否かを見分けることを困難にでき、また、ダミー音声か否かを見分けることを困難にでき、対象音声の内容の秘匿性を一層高めることができる。

分割部５４は、対象音声記憶部３０に記憶された対象音声データを複数の区間に係る複数の区間音声データに分割する。図３は、音声データの分割例を示す。分割部５４は、Ａ社の対象音声データＡａを、区間音声データＡａ−１、区間音声データＡａ−２、区間音声データＡａ−３の３つに分割する。また、分割部５４は、Ａ社の対象音声データＡｂを、区間音声データＡｂ−１、区間音声データＡｂ−２、区間音声データＡｂ−３の３つに分割する。同様に、分割部５４は、Ｂ社の対象音声データＢａおよび対象音声データＢｂを分割する。

既述したように、実施例では、ダミー音声データは、複数の区間音声データに予め分割されている。例えば図３では、ダミー音声データＣａは、区間音声データＣａ−１と区間音声データＣａ−２の２つに分割されている。変形例として、分割部５４は、対象音声データの分割時に、ダミー音声データを複数の区間音声データに分割してもよい。

分割部５４は、複数の区間音声データのそれぞれについて、分割前の対象音声データまたはダミー音声データにおける位置情報（例えば先頭からの順番や時間位置等）を記憶部２２に保存する。例えば、分割部５４は、区間音声データＡａ−１について、対象音声データＡａの１番目の区間であることを示す情報を保存し、また、区間音声データＡａ−２について、対象音声データＡａの２番目の区間であることを示す情報を保存してもよい。

図４は、音声データの例を示す。同図は音声の波形を示し、具体的には、同図の横軸は音声開始からの経過時間を示し、縦軸は音量を示している。分割部５４は、音声を区切る区間がとりうる予め定められた最小時間と最大時間（言い換えれば最大長）を保持する。実施例における区間の最小時間は１０秒（図４の終了範囲始点７０）であり、最大時間は２０秒（図４の終了範囲終点７２）である。区間が短いほど音声内容の秘匿性は高くなるが、文字起こしの正確度は低下する。区間の最小時間と最大時間は、音声内容の秘匿性と文字起こしの正確度とを比較衡量して、適切な値に決定されてよい。

分割部５４は、対象音声データにおける１つの区間の終了位置を決定する場合、予め定められた最小時間以上かつ最大時間以下の範囲内で、かつ、音量が所定の閾値未満の時点を区間の終了位置として決定する。例えば、図４の例では、音声開始から１５．５秒の時点を区間の終了位置（分割点７４）に決定する。次の区間については、分割部５４は、図４の分割点７４を開始位置とし、分割点７４から１０秒〜２０秒の範囲内で、かつ、音量が所定の閾値未満の時点を次の区間の終了位置として決定する。なお、音量の閾値は、無音と見なされる音量の値でもよく、また、静かな室内の場合に想定される音量の値でもよい。例えば、音量の閾値は、０．００２パスカル（４０デシベル）であってもよい。

対象音声において、単語の切れ目や意味の切れ目は、音量が小さくなりやすい。実施例では音量が閾値未満の位置を区間の終了位置とすることで、単語の切れ目や意味の切れ目を区間の終了位置とすることができ、文字起こしの正確性を高めることができる。

図２に戻り、割当部５６は、割当規則記憶部３４に記憶された割当規則にしたがって、対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を、複数の作業者のそれぞれに割り当てる。割当部５６は、各作業者に割り当てた対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を配信データ記憶部３６に格納する。

実施例の割当規則は、１人の作業者に対して割り当てる複数の区間音声データが、互いに時間的・空間的に離れたものになるよう定められる。具体的には、（１）割当規則は、作業者装置１６が複数存在する場合に、１つの作業者装置１６に対して、１つの対象音声データを起原とする複数の区間音声データのうち一部の区間音声データを割り当てるよう定める。すなわち、割当規則は、１つの作業者装置１６に対して、１つの対象音声データに基づく全ての区間音声データを割り当てることを禁止する。これにより、対象音声の内容の秘匿性を高めることができる。

また、（２）割当規則は、１つの作業者装置１６に対して、１つの対象音声データにおいて時間的に連続する複数の区間音声データを割り当てることを禁止する。言い換えれば、割当規則は、１つの対象音声データにおいて時間的に連続する複数の区間音声データを異なる作業者に割り当てるよう規定する。例えば、図３の区間音声データＡａ−１と区間音声データＡａ−２を同じ作業者に割り当てることを禁止し、異なる作業者に割り当てるよう規定する。これにより、対象音声の内容の秘匿性をさらに高めることができる。

また、（３）割当規則は、１つの作業者装置１６に対して複数の区間音声データを提供する場合に、１つの対象音声データを起原とする複数の区間音声データを提供することより、異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。

また、（４）割当規則は、１つの作業者装置１６に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先するよう定める。異なる組織に関する異なる対象音声データを起原とする複数の区間音声データは、内容が関連しない可能性が一層高いため、各対象音声の内容の秘匿性をさらに一層高めることができる。

図５は、区間音声データの割当例を示す。同図に示す区間音声データは、図３に示した区間音声データに対応する。同図の例では、割当部５６は、作業者ｘに対して、対象音声データＡａを起原とする区間音声データＡａ−１と、ダミー音声データＣａを起原とする区間音声データＣａ−１と、対象音声データＢｂを起原とする区間音声データＢｂ−２を割り当てている。また、割当部５６は、作業者ｙと作業者ｚにもそれぞれ、異なる組織の異なる対象音声データを起原とする複数の区間音声データを割り当てている。

図２に戻り、配信部５８は、割当部５６による割当結果にしたがって、各作業者へ区間音声データを提供する。具体的には、配信部５８は、配信データ記憶部３６に記憶された対象音声データに基づく区間音声データと、ダミー音声データに基づく区間音声データの組を各作業者の作業者装置１６へ提供する。

実施例では、配信部５８は、文字起こし作業を行うためのウェブページ（以下「作業ページ」とも呼ぶ。）を複数の作業者装置１６に送信し、表示させる。配信部５８は、作業者ｘ用の作業ページを作業者装置１６ｘに提供し、作業者ｙ用の作業ページを作業者装置１６ｙに提供し、作業者ｚ用の作業ページを作業者装置１６ｚに提供する。なお、配信部５８は、各作業者用の作業ページのＵＲＬを電子メール等により各作業者の作業者装置１６へ通知してもよい。

配信部５８は、作業者ｘ用の作業ページのデータに、割当部５６により作業者ｘに割り当てられた区間音声データ（図５の例では区間音声データＡａ−１、区間音声データＣａ−１、区間音声データＢｂ−２）を含める。同様に、配信部５８は、作業者ｙ（作業者ｚ）用の作業ページのデータに、割当部５６により作業者ｙ（作業者ｚ）に割り当てられた区間音声データを含める。なお、配信部５８は、各作業者用の作業ページに、各区間音声データを再生するためのボタン、各区間音声データの音声を文字起こしした結果のテキストを入力するエリア、送信ボタンを配置する。

作業結果受付部６０は、各作業者の作業者装置１６から送信された、各作業者による作業結果を受け付ける。実施例では、作業結果受付部６０は、作業者ｘ用の作業ページに入力された作業者ｘによる文字起こし結果を受け付け、作業者ｙ用の作業ページに入力された作業者ｙによる文字起こし結果を受け付け、作業者ｚ用の作業ページに入力された作業者ｚによる文字起こし結果を受け付ける。作業結果受付部６０は、各作業者の作業結果を作業結果記憶部３８に格納する。

図６は、作業者による作業結果の例を示す。同図は、図５の割当に基づく作業結果を示している。例えば、作業者ｘによる作業結果は、テキストデータＡａ−１、テキストデータＣａ−１、テキストデータＢｂ−２を含む。テキストデータＡａ−１は、対象音声データＡａを起原とする区間音声データＡａ−１の音声を文字起こししたものである。また、テキストデータＣａ−１は、ダミー音声データＣａを起原とする区間音声データＣａ−１の音声を文字起こししたものである。また、テキストデータＢｂ−２は、対象音声データＢｂを起原とする区間音声データＢｂ−２の音声を文字起こししたものである。

図２に戻り、文章生成部６２は、作業結果受付部６０により受け付けられ、作業結果記憶部３８に記憶されたテキストデータのうち、対象音声データを起原とする区間音声データをもとに文字起こししたテキストデータを用いて、対象音声の全体を文字起こしした文章データを生成する。文章生成部６２は、文章データを生成する際、ダミー音声データを起原とする区間音声データをもとに文字起こししたテキストデータは使用しない。

文章生成部６２は、分割部５４により記憶部２２に格納された各区間音声データの位置情報（すなわち対象音声データ内での位置情報）にしたがって、複数の区間音声データに基づくテキストデータを組み合わせることにより文章データを生成する。文章生成部６２は、或る対象音声に対する文章データを、その対象音声の文字起こしを要求したユーザ（またはユーザ端末１４）に対応付けて文章記憶部４０に格納する。

図６の作業者ｘの作業結果に含まれるテキストデータＡａ−１は、対象音声データＡａの１番目の区間に対応する区間音声データＡａ−１のテキストである。また、図６の作業者ｙの作業結果に含まれるテキストデータＡａ−２は、対象音声データＡａの２番目の区間に対応する区間音声データＡａ−２のテキストである。また、図６の作業者ｚの作業結果に含まれるテキストデータＡａ−３は、対象音声データＡａの３番目の区間に対応する区間音声データＡａ−３のテキストである。文章生成部６２は、テキストデータＡａ−１、テキストデータＡａ−２、テキストデータＡａ−３をこの順に合成することにより、対象音声データＡａの全体をテキスト化した文章データＡａを生成する。

図２に戻り、文章提供部６４は、文章記憶部４０に記憶された文章データを、文字起こしの要求元のユーザ（ユーザ端末１４）へ送信する。例えば、文章提供部６４は、図６に示した対象音声データＡａが文字起こしされた文章データＡａを、その文字起こしを要求したユーザａ（ユーザ端末１４ａ）へ送信する。なお、文章提供部６４は、ユーザ端末１４ａから文章データの提供要求を受け付けたことを契機に、文章記憶部４０に記憶された複数の文章データのうち、ユーザａに対応付けられた文章データをユーザ端末１４ａへ送信してもよい。

評価部６６は、正解記憶部４２に予め記憶された正解データと、各作業者によるダミー音声の文字起こし結果（作業結果受付部６０により受け付けられ、作業結果記憶部３８に記憶されたテキストデータ）とを比較することにより、各作業者を評価する。例えば、評価部６６は、ダミー音声データＣａを起原とする区間音声Ｃａ−１の正解データと、作業ｘによる区間音声Ｃａ−１の文字起こし結果であるテキストデータＣａ−１とを比較することにより、作業者ｘを評価する。

実施例では、評価部６６は、形態素解析により、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とを抽出し、両者の間で一致する形態素が多いほど、作業者の変換精度が高いと評価し、作業者に高い評価値を付与する。なお、評価部６６は、類義語辞書を参照し、正解データを構成する形態素と、作業結果のテキストデータを構成する形態素とが不一致であっても、類義語であれば一致すると見なしてもよい。このように実施例では、ダミー音声の文字起こし結果に基づいて、作業者を客観的に評価することができる。

評価部６６は、複数の作業者それぞれの評価結果（評価値）を評価記憶部４４に格納する。管理装置１２は、評価記憶部４４に記憶された各作業者の評価結果を外部装置に提供する評価結果出力部（不図示）をさらに備えてもよい。この場合の外部装置は、例えば、作業者との料金交渉や契約を行う担当者の端末でもよい。

以上の構成による文字起こしシステム１０の動作を説明する。文字起こしシステム１０の複数のユーザはそれぞれ、対象音声データをユーザ端末１４から管理装置１２へアップロードする。管理装置１２の要求受付部５０は、複数のユーザ端末１４から送信された複数の対象音声データを受け付ける。管理装置１２の変換部５２は、複数の対象音声データの声質を予め定められた基準の声質（実施例ではダミー音声データと同じ声質であり、合成音声の声質でもよい）に変換する。

管理装置１２の分割部５４は、複数の対象音声データのそれぞれを複数の区間音声データに分割する。管理装置１２の割当部５６は、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を、各作業者に割り当てる。管理装置１２の配信部５８は、各作業者用のウェブページにて、対象音声データの区間音声データと、ダミー音声データの区間音声データの組を各作業者に提示する。

作業者は、自身向けのウェブページにて自身に割り当てられた区間音声データを再生し、その音声内容を示すテキストをウェブページの所定エリアに入力する。作業者がウェブページの送信ボタンを押下すると、作業者装置１６は、作業者が上記所定エリアに入力したテキストデータを管理装置１２へ送信する。

管理装置１２の作業結果受付部６０は、各作業者の作業者装置１６から送信された対象音声データの区間音声を文字起こししたテキストデータと、ダミー音声データの区間音声を文字起こししたテキストデータを受け付ける。管理装置１２の文章生成部６２は、各作業者の作業者装置１６から送信された対象音声データの区間音声を文字起こししたテキストデータを合成して、対象音声データ全体の音声をテキスト化した文章データを生成する。

管理装置１２の文章提供部６４は、各対象音声データに対応する文章データを、各対象音声データをアップロードしたユーザ端末１４へ送信する。ユーザは、自身がアップロードした対象音声データに対応する文章データを得て業務を進める。管理装置１２の評価部６６は、予め内容が定められたダミー音声データに対する文字起こし結果をもとに、各作業者の評価値を決定する。

以上、本発明を実施例をもとに説明した。この実施例は例示であり、実施例に記載の各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を示す。

第１変形例を説明する。管理装置１２の分割部５４は、対象音声データを分割して、第１区間に係る第１区間音声データと、第１区間の直後の第２区間に係る第２区間音声データを生成する場合に、第１区間の一部と第２区間の一部を重複させてもよい。言い換えれば、分割部５４は、第１区間と第２区間にのりしろとなる時間領域を設けてもよい。

図７は、音声データの分割例を示す。ここでは、対象音声データ８０は、区間音声データ８２ａ、区間音声データ８２ｂ、区間音声データ８２ｃ、区間音声データ８２ｄの４つに分割される。分割部５４は、区間音声データ８２ａと区間音声データ８２ｂに、重複期間８４ａと重複期間８４ｂを設ける。また、分割部５４は、区間音声データ８２ｂと区間音声データ８２ｃに、重複期間８４ｃと重複期間８４ｄを設ける。また、分割部５４は、区間音声データ８２ｃと区間音声データ８２ｄに、重複期間８４ｅと重複期間８４ｆを設ける。ここでは、重複期間８４ａ〜重複期間８４ｆのそれぞれは、２．５秒とする。

図７の例では、区間音声データ８２ａは、対象音声データ８０の開始点から１５秒の区間の音声である。区間の終了位置は、実施例に記載の方法により決定してよい。この区間では終了前５秒が重複期間（重複期間８４ａ＋重複期間８４ｂ）となる。区間音声データ８２ｂは、対象音声データ８０の開始点から１０秒以降、２５秒までの区間の音声である。この区間では開始後５秒と終了前５秒が重複期間となる。区間音声データ８２ａと区間音声データ８２ｂは、異なる作業者に割り当てられるが、重複期間８４ａと重複期間８４ｂの音声は、異なる作業者の両者が文字起こしを行う。

また、区間音声データ８２ｃは、対象音声データ８０の開始点から２０秒以降、３５秒までの区間の音声である。この区間では開始後５秒と終了前５秒が重複期間となる。区間音声データ８２ｄは、対象音声データ８０の開始点から３０秒以降、４５秒までの区間の音声である。この区間では開始後５秒が重複期間となる。

文章生成部６２は、時間的に連続する第１区間音声データ（例えば区間音声データ８２ａ）のテキストデータと、第２区間音声データ（例えば区間音声データ８２ｂ）のテキストデータについて、重複期間における所定数の文字（所定数の形態素でもよい）が一致するように両者のテキストデータを合成する。

また、文章生成部６２は、重複期間におけるテキストデータとして、端部から遠い方の区間音声データのテキストを採用する。言い換えれば、各区間音声データの端部に対応するテキストデータ（例えば所定数の文字や形態素）は、合成語の文章データには反映しない。例えば、文章生成部６２は、重複期間８４ａについて、区間音声データ８２ａに基づくテキストデータを採用する一方、重複期間８４ｂについては、区間音声データ８２ｂに基づくテキストデータを採用する。同様に、文章生成部６２は、重複期間８４ｃについて、区間音声データ８２ｂに基づくテキストデータを採用する一方、重複期間８４ｄについては、区間音声データ８２ｃに基づくテキストデータを採用する。

本発明者は、文字起こしに関するＰｏＣ（Proof of Concept）を実施する中で、区間音声データにおける開始時と終了時はテキスト化の正確度が低下することを認識した。そこで、本変形例では、時間的に連続する第１区間音声データと第２区間音声データに重複期間を設け、第１区間音声データのテキストデータと第２区間音声データのテキストデータにおいてテキスト化の正確度が高いと考えられる部分を文章データに反映することにより、文章データの正確度を高めることができる。

第２変形例を説明する。上記実施例では、人が対象音声およびダミー音声を聞いて文字起こししたが、変形例として、コンピュータ（少なくとも一部の作業者装置１６）が、文字起こし処理を自動で実行してもよい。この場合、配信部５８は、作業者装置１６がネットワーク上に公開する文字起こし依頼用ＡＰＩを呼び出すとともに、１つ以上の区間音声データ（例えば図５の配信データ）を作業者装置１６へ送信してもよい。作業結果受付部６０は、作業者装置１６の文字起こし依頼用ＡＰＩの返値として、文字起こし結果のテキストデータを受け付けてもよい。

第２変形例に関連する第３変形例を説明する。文字起こしは、コンピュータによる文字起こしと人による文字起こしの両方が実行されてもよい。具体的には、管理装置１２の配信部５８は、まず、文字起こし処理を自動実行する第１の作業者装置へ１つ以上の区間音声データ（例えば図５の配信データ）を送信し、作業結果受付部６０は、文字起こし処理の結果を第１の作業者装置から取得してもよい。次に、配信部５８は、人手により文字起こしを行う第２の作業者装置へ、第１の作業者装置による文字起こし処理の結果を送信し、作業結果受付部６０は、人手による文字起こし（ここでは点検・編集）の結果を第２の作業者装置から取得してもよい。この構成によると、人は、コンピュータによる文字起こしの結果を点検・編集する役目となるため、人件費を抑えつつ、文字起こしの正確度を高めることができる。

第４変形例を説明する。上記実施例では言及していないが、割当部５６は、評価記憶部４４に記憶された評価値が高い作業者ほど優先して、区間音声データの文字起こしを割り当ててもよい。また、配信部５８は、評価記憶部４４に記憶された評価値が高い作業者ほど優先して、区間音声データを配信してもよい。言い換えれば、評価記憶部４４に記憶された評価値が相対的に高い作業者に対して、評価値が相対的に低い作業者より優先して、区間音声データを割り当て、または配信してもよい。これにより、文字起こしの正確度を高めやすくなる。

第５変形例を説明する。上記実施例では言及していないが、評価部６６による作業者の評価は、文章生成部６２による文章データ生成前に実行されてもよい。文章生成部６２は、或る作業者の評価値が所定の閾値未満の場合、当該作業者（以下「低評価者」と呼ぶ。）による文字起こし結果（テキストデータ）を用いた文章データの生成を中止してもよい。この場合、割当部５６は、低評価者に対して割り当てた区間音声データを、他の作業者（評価値が上記閾値以上の作業者）に割り当て直してもよい。配信部５８は、低評価者に対して提供した区間音声データを、上記他の作業者へ提供し、文字起こしを依頼してもよい。これにより、正確度が低い文字起こし結果をユーザに提供してしまうことを回避し、また、文字起こしの正確度を一層高めることができる。

第６変形例を説明する。上記実施例では言及していないが、割当部５６は、同一の作業者に対する配信データでは、少なくとも所定期間、異なるダミー音声データ（少なくとも区間音声データとしては異なるもの）を提供することが望ましい。例えば、割当部５６は、作業者毎に、割り当てたダミー音声データ（その区間音声データ）の識別情報を保存し、依頼の都度、ダミー音声データ（区間音声データ）を変化させてもよい。これにより、作業者がダミー音声を判別することを困難にし、対象音声の内容の秘匿性を高めることができる。

第７変形例を説明する。上記実施例の管理装置１２は、各作業者用のウェブページを作業者装置１６へ提供し、各作業者用のウェブページにて、各作業者に区間音声データを再生させ、また、各作業者に区間音声データの文字起こし結果を入力させた。変形例では、管理装置１２の配信部５８は、対象音声の区間音声データおよびダミー音声の区間音声暗号データを暗号化した暗号データを作業者装置１６へ送信してもよい。管理装置１２の作業結果受付部６０は、各作業者による文字起こし結果のテキストデータを暗号化した暗号データを作業者装置１６から受け付けてもよい。

第８変形例を説明する。対象音声の区間音声データの中に、ダミー音声の区間音声データをいくつ挿入するか、または、作業者に割り当てる対象音声の区間音声データとダミー音声の区間音声データとの比率は、ユーザが要求する対象音声の秘匿性強度により決定されてもよい。すなわち、要求される秘匿性強度が強いほど、ダミー音声の区間音声データが配信データに挿入される個数が多くなるよう割当規則が定められてもよい。または、配信データにおける、対象音声の区間音声データに対するダミー音声の区間音声データの比率が高くなるよう割当規則が定められてもよい。なお、上記の挿入数または比率が大きいほど、秘匿性が高まるため、文字起こしサービスの販売価格が高く定められてもよい。

第９変形例を説明する。上記実施例に記載の文字起こしシステム１０の構成は一例であり、物理的な構成（筐体数等）に制限がないことはもちろんである。例えば、オリジナルの音声データを分割し、区間音声データを作業者装置１６へ提供する機能と、作業者による文字起こし結果を収集し、文章データを生成してユーザに提供する機能とは、別の装置により実現されてもよい。

上述した実施例および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施例および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施例および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。

１０文字起こしシステム、１２管理装置、１４ユーザ端末、１６作業者装置、５２変換部、５４分割部、５８配信部、６０作業結果受付部、６２文章生成部、６４文章提供部、６６評価部。

Claims

文字起こしの対象の音声が録音された対象音声データを記憶する第１記憶部と、
ダミーの音声が録音されたダミー音声データを記憶する第２記憶部と、
前記対象音声データを複数の区間に係る複数の区間音声データに分割する分割部と、
前記複数の区間音声データの少なくとも１つと前記ダミー音声データの組を外部装置へ提供する提供部と、
前記複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータとを受け付ける受付部と、
前記受付部が受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成する生成部と、
を備えることを特徴とする情報処理システム。
前記分割部は、前記対象音声データにおける１つの区間の終了位置を決定する場合、予め定められた区間の最大長以内で音量が所定の閾値未満の時点を、前記終了位置として決定することを特徴とする請求項１に記載の情報処理システム。
前記提供部は、前記外部装置が複数存在する場合、１つの外部装置に対して、前記複数の区間音声データのうち一部の区間音声データと前記ダミー音声データの組を提供することを特徴とする請求項１または２に記載の情報処理システム。
前記提供部は、１つの外部装置に対して複数の区間音声データを提供する場合、１つの対象音声データを起原とする複数の区間音声データを提供することより、異なる対象音声データを起原とする複数の区間音声データを提供することを優先することを特徴とする請求項１から３のいずれかに記載の情報処理システム。
前記提供部は、１つの外部装置に対して異なる対象音声データを起原とする複数の区間音声データを提供する場合、同じ組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することより、異なる組織に関する異なる対象音声データを起原とする複数の区間音声データを提供することを優先することを特徴とする請求項４に記載の情報処理システム。
複数の対象音声データのうち少なくとも１つの対象音声データを変換することにより、前記複数の対象音声データの声質を均質化させる変換部をさらに備えることを特徴とする請求項１から５のいずれかに記載の情報処理システム。
前記ダミー音声データに録音された予め定められた音声の内容を示すテキストデータを記憶する第３記憶部と、
前記第３記憶部に記憶されたテキストデータと、前記受付部が受け付けた、前記ダミー音声データを文字起こししたテキストデータとを比較することにより、文字起こしを行った主体を評価する評価部と、をさらに備えることを特徴とする請求項１から６のいずれかに記載の情報処理システム。
前記分割部は、前記対象音声データを分割して、第１区間に係る第１区間音声データと、前記第１区間の直後の第２区間に係る第２区間音声データを生成する場合、前記第１区間の一部と、前記第２区間の一部を重複させることを特徴とする請求項１から７のいずれかに記載の情報処理システム。
文字起こしの対象の音声が録音された対象音声データと、ダミーの音声が録音されたダミー音声データとを記憶する情報処理システムが、
前記対象音声データを複数の区間に係る複数の区間音声データに分割するステップと、
前記複数の区間音声データの少なくとも１つと前記ダミー音声データの組を外部装置へ提供するステップと、
前記複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータと、前記ダミー音声データをもとに文字起こししたテキストデータの両方を受け付けるステップと、
受け付けたテキストデータのうち、前記複数の区間音声データの少なくとも１つをもとに文字起こししたテキストデータを用いて、前記対象の音声を文字起こししたテキストデータを生成するステップと、
を実行することを特徴とする文字起こし方法。