JP6387044B2 - テキスト処理装置、テキスト処理方法およびテキスト処理プログラム - Google Patents

テキスト処理装置、テキスト処理方法およびテキスト処理プログラム Download PDF

Info

Publication number
JP6387044B2
JP6387044B2 JP2016104588A JP2016104588A JP6387044B2 JP 6387044 B2 JP6387044 B2 JP 6387044B2 JP 2016104588 A JP2016104588 A JP 2016104588A JP 2016104588 A JP2016104588 A JP 2016104588A JP 6387044 B2 JP6387044 B2 JP 6387044B2
Authority
JP
Japan
Prior art keywords
character string
text
data
position information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016104588A
Other languages
English (en)
Other versions
JP2016177311A (ja
Inventor
鈴木 博和
博和 鈴木
信宏 下郡
信宏 下郡
朋男 池田
朋男 池田
上野 晃嗣
晃嗣 上野
西山 修
修 西山
学 永尾
学 永尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016104588A priority Critical patent/JP6387044B2/ja
Publication of JP2016177311A publication Critical patent/JP2016177311A/ja
Application granted granted Critical
Publication of JP6387044B2 publication Critical patent/JP6387044B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は、音声データをテキスト化する書き起こし作業を支援するためのテキスト処理装置、テキスト処理方法およびテキスト処理プログラムに関する。
従来、書き起こし作業の効率化を図るための様々な技術が知られている。例えば、音声データに対して音声認識処理を実行することにより得られた音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)とを対応付けて画面上に表示させるという技術が知られている。この技術では、画面上の文字列が選択されると、その文字列に対応する再生位置から音声データが再生されるので、ユーザー(書き起こし作業者)は、文字列を選択して音声データを聞きながら当該文字列の修正を行う。
上述した技術では、音声テキストデータを構成する複数の文字列の各々と、音声データの再生位置とを対応付けて画面上に表示させる必要があるので、表示制御の構成が複雑になるという問題がある。また、書き起こし作業では、フィラーや文法的な誤りを含む音声データをそのまま書き起こすことは少なく、整文作業を行うのが一般的である。すなわち、音声データと、ユーザーが書き起こそうとする文章との間には大きな差異があるので、上述した技術のように、音声データの音声認識結果を修正する作業を行うことは、必ずしも効率的ではない。したがって、構成の簡素化を図るという観点からは、音声認識結果の修正作業を行う書き起こす方式よりも、音声データを再生しながら、聞き取れた範囲をテキスト化していく書き起こし方式の方が好ましい。この場合、ユーザーは、音声データの一時停止、巻き戻しを繰り返しながら書き起こし作業を行うことになる。ここで、一時停止を解除して音声データの再生を再開する場合(書き起こし作業を再開する場合)は、音声データのうち書き起こしが完了した位置から再生が再開されることが望ましい。
しかしながら、従来においては、音声データのうち書き起こしが完了した位置を特定することは困難であるという問題がある。
特開2005−228178号公報 特許第4558308号
本発明が解決しようとする課題は、音声データのうち書き起こしが完了した位置を特定可能なテキスト処理装置、テキスト処理方法およびテキスト処理プログラムを提供することである。
実施形態のテキスト処理装置は、処理部を備える。処理部は、音声データに対応するテキストを構成する文字列の終端の文字列が、音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、終端の文字列以外の文字列の中に、音声テキストデータに含まれる文字列と一致する文字列が存在する場合、一致する文字列の音声データにおける位置情報から、音声データにおける前記終端の文字列の位置情報を取得する。
実施形態のテキスト処理装置は、作成部と処理部とを備える。作成部は、音声データに対応するテキストを作成する。処理部は、音声データの認識処理により得られる音声テキストデータと、音声テキストデータに含まれる文字列の音声データにおける位置情報とを用いて、音声データに対応するテキストを構成する文字列の終端の文字列の音声データにおける位置情報を取得する。また、処理部は、作成部が、改行、句読点、疑問符および感嘆符の何れかを指示する入力を受け付けた場合、終端の文字列の音声データにおける位置情報を取得する。
実施形態のテキスト処理方法は、コンピュータが実行するテキスト処理方法であって、音声データに対応するテキストを構成する文字列の終端の文字列が、音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、終端の文字列以外の文字列の中に、音声テキストデータに含まれる文字列と一致する文字列が存在する場合、一致する文字列の音声データにおける位置情報から、音声データにおける終端の文字列の位置情報を取得する。
実施形態のテキスト処理プログラムは、コンピュータに、音声データに対応するテキストを構成する文字列の終端の文字列が、音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、終端の文字列以外の文字列の中に、音声テキストデータに含まれる文字列と一致する文字列が存在する場合、一致する文字列の音声データにおける位置情報から、音声データにおける終端の文字列の位置情報を取得する機能を実現させるためのプログラムである。
実施形態の書き起こし支援システムの概略構成例を示すブロック図。 音声テキストデータの一例を示す図。 音声インデックスの一例を示す図。 テキスト作成処理の一例を示すフローチャート。 推定処理の一例を示すフローチャート。
以下、添付図面を参照しながら、本発明に係る書き起こし支援システムの実施の形態を詳細に説明する。なお、以下の各実施形態では、書き起こし支援システムとして、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するPC(Personal Computer)を例に挙げて説明するが、これに限定されるものではない。以下の各実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
図1は、本実施形態の書き起こし支援システム100の概略構成例を示すブロック図である。図1に示すように、書き起こし支援システム100は、第1記憶部11と、再生部12と、音声認識部13と、インデックス生成部14と、第2記憶部15と、入力受付部16と、テキスト作成部17と、推定部18と、設定部19と、再生指示受付部20と、再生制御部21とを含む。
第1記憶部11は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。再生部12は、音声データを再生する手段であり、例えばスピーカ、DAコンバータおよびヘッドフォンなどから構成される機器である。
音声認識部13は、音声データに対して音声認識処理を実行してテキスト化する。音声認識処理により得られたテキストデータを音声テキストデータと呼ぶ。音声認識処理は、公知の様々な技術を利用することができる。本実施形態では、音声認識部13により生成された音声テキストデータは、単語・形態素・文節などの文よりも小さい単位で分割され、ラティスと呼ばれる認識候補(分割単位の候補)をつないだネットワーク構造で表される。音声テキストデータの形態はこれに限られない。例えば音声認識処理の最適な認識結果を表す一次元構造(1つのパス)で音声テキストデータを表すこともできる。図2は、「先ほどの内容、今日議題にございました件ですが」という音声データに対して音声認識処理を実行して得られた音声テキストデータの一例を示す図である。図2の例では、分割単位は形態素である。
再び図1に戻って説明を続ける。インデックス生成部14は、音声認識部13により生成された音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)を示す音声位置情報とを対応付けた音声インデックスを生成する。例えば、音声認識部13により図2に示す音声テキストデータが生成された場合を想定する。この場合、インデックス生成部14は、音声テキストデータを構成する複数の形態素の各々と、音声データの音声位置情報とを対応付ける。これにより、図3に示されるような音声インデックスが生成される。音声認識処理では、音声データを10〜20ms程度の一定間隔で処理する。音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
図3の例では、音声データの音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される(単位はミリ秒)。例えば図3の「今日」に対応する音声位置情報は「1100ms−1400ms」であるが、これは、音声データを再生した場合に、「今日」という音声の再生開始位置が1100msで、再生終了位置が1400msであることを意味している。言い換えれば、音声データを再生した場合に、当該音声データの先頭から1100ms経過した時点を始点とし、先頭から1400ms経過した時点を終点とする期間が、「今日」という音声が再生される期間であることを意味している。
再び図1に戻って説明を続ける。第2記憶部15は、インデックス生成部14で生成された音声インデックスを記憶する。なお、音声インデックスは、書き起こし作業の開始前に既に作成されていてもよいし、書き起こし作業中にリアルタイムで作成されてもよい。
入力受付部16は、ユーザーからのテキストを作成するための各種の入力(テキスト入力と呼ぶ)を受け付ける。ユーザーは、例えばキーボードなどの操作デバイスを操作することによりテキスト入力を行うことができる。テキスト作成部17は、ユーザーからの操作入力に応じてテキストを作成する。より具体的には、テキスト作成部17は、入力受付部16で受け付けたテキスト入力に従ってテキストを作成する。以下では、説明の便宜上、テキスト作成部17で作成されたテキストを「入力済みテキスト」と呼ぶ。
図4は、テキスト作成部17が実行するテキスト作成処理の一例を示すフローチャートである。図4に示すように、テキスト作成部17は、入力受付部16でテキスト入力を受け付けた場合(ステップS1の結果:YES)、その受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であるか否かを判定する(ステップS2)。なお、「punctuation」の入力とは、例えば句読点、疑問符、感嘆符などの入力を意味する。
ステップS1で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であると判定した場合(ステップS2の結果:YES)、テキスト作成部17は、先頭の入力位置から現在の入力位置までの文字列をテキストとして確定する(ステップS3)。一方、ステップS1で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力ではないと判定した場合(ステップS2の結果:NO)、処理はステップS4へ移行する。
ステップS4では、テキスト作成部17は、受け付けたテキスト入力が、変換処理の確定を指示する入力であるか否かを判定する。変換処理の一例としては、平仮名を漢字に変換する処理などが挙げられる。なお、ここでは、変換処理の確定を指示する入力には、平仮名を漢字に変換せずにそのまま確定することを指示する入力も含まれる。受け付けたテキスト入力が、変換処理の確定を指示する入力であると判定した場合(ステップS4の結果:YES)、処理は上述のステップS3へ移行し、現在の入力位置までの文字列がテキストとして確定する。そして、テキスト作成部17は、確定したテキスト(入力済みテキスト)を推定部18へ送信する(ステップS5)。以上でテキスト作成処理が終了する。
再び図1に戻って説明を続ける。推定部18は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置(つまりは書き起しが完了した位置)を示す作成済み音声位置情報を推定する。図5は、推定部18が実行する推定処理の一例を示すフローチャートである。図5に示すように、入力済みテキストを取得した場合(ステップS10の結果:YES)、推定部18は、入力済みテキストを構成する文字列(ここでは形態素を単位とする文字列)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(ステップS11)。
ステップS11において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在すると判断した場合(ステップS11の結果:YES)、推定部18は、入力済みテキストを構成する文字列の終端の文字列(最後の文字列)が、音声インデックスに含まれる文字列と一致するか否かを判断する(ステップ12)。
上述のステップS12において、終端の文字列が、音声インデックスに含まれる文字列と一致すると判断した場合(ステップS12の結果:YES)、推定部18は、終端の文字列と一致する文字列に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(ステップS13)。一方、上述のステップS12において、終端の文字列が、音声インデックスに含まれる文字列と一致しないと判断した場合(ステップS12の結果:NO)、処理はステップS14に移行する。
ステップS14では、推定部18は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列に最も近い文字列を示す基準文字列に対応する音声位置情報を音声インデックスから読み出す(ステップS14)。また、推定部18は、入力済みテキストを構成する文字列のうち、基準文字列の次の文字列から終端の文字列までの文字列を示す不一致文字列を再生するのに要する時間を示す第1再生時間を推定する(ステップS15)。第1再生時間の推定方法は任意であり、例えば不一致文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、その不一致文字列を再生(発話)するのに要する時間を推定することもできる。
次に、推定部18は、ステップS14で読み出した音声位置情報(基準文字列に対応する音声位置情報)と、ステップS15で推定した第1再生時間とから、作成済み音声位置情報を推定する(ステップS16)。より具体的には、推定部18は、音声データのうち基準文字列の終端を示す位置よりも、ステップS15で推定した第1再生時間だけ先の位置を、作成済み音声位置情報として推定する。
一方、上述のステップS11において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在しないと判断した場合(ステップS11の結果:NO)、推定部18は、入力済みテキストを再生するのに要する時間を示す第2再生時間を推定する(ステップS17)。第2再生時間の推定方法は任意であり、例えばテキストを構成する文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、テキストを構成する文字列を再生(発話)するのに要する時間を推定することもできる。そして、推定部18は、第2再生時間から作成済み音声位置情報を推定する(ステップS18)。
いま、具体例として、ユーザー(書き起こし作業者)が「先ほどの内容、今日議題にございました件ですが」という音声データを聞いて、書き起こし作業を行う場合を想定する。ここでは、音声データの再生は、上記音声データの終端の位置で一時停止しているものとする。また、この例では、書き起こし作業の開始前において、図3に示す音声インデックスが既に生成されており、当該音声インデックスは第2記憶部15に格納されているものとする。
最初に、ユーザーが、「さきほどの」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの」を構成する文字列(「先」「ほど」「の」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「の」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「の」に対応する音声位置情報「600ms−700ms」の終点700msを、作成済み音声位置情報として推定する。
次に、ユーザーが、上述の「先ほどの」という文字列(変換が確定済みの文字列)の後に続けて「ぎだいに」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題に」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題に」を構成する文字列(「先」「ほど」「の」「議題」「に」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題に」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「に」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「に」に対応する音声位置情報「1700ms−1800ms」の終点1800msを、作成済み音声位置情報として推定する。
次に、ユーザーが、上述の「先ほどの議題に」という文字列の後に続けて「のぼった」という文字列を入力し、その入力文字列を確定(平仮名のままとすることを確定)することで、「先ほどの議題にのぼった」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題にのぼった」を構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題にのぼった」を構成する5つの文字列のうち4つの文字列(「先」「ほど」「の」「議題」「に」)の各々が、音声インデックスに含まれる文字列と一致するものの、終端の文字列「のぼった」が、音声インデックスに含まれる文字列と一致しない。つまり、終端の文字列「のぼった」が音声インデックスに存在しない(図5のステップS12の結果:NO)。
したがって、推定部18は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列「のぼった」に最も近い文字列を示す基準文字列「に」に対応する音声位置情報「1700ms−1800ms」を音声インデックスから読み出す(図5のステップS14)。また、推定部18は、入力済みテキストを構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」)のうち基準文字列「に」の次の文字列から終端の文字列までの文字列を示す不一致文字列の再生に要する第1再生時間を推定する(図5のステップS15)。この例では、不一致文字列は「のぼった」であり、当該「のぼった」の再生に要する時間の推定結果は350msであったとする。この場合、推定部18は、基準文字列「に」に対応する音声位置情報「1700ms−1800ms」の終点1800msよりも、「のぼった」の再生に要する350msだけ先の位置である「2150ms」を、作成済み音声位置情報として推定する(図5のステップS16)。
次に、ユーザーが、上述の「先ほどの議題にのぼった」という文字列の後に続けて「けんですが」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題にのぼった件ですが」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題にのぼった件ですが」を構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」「件」「です」「が」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題にのぼった件ですが」を構成する9つの文字列のうち8つの文字列(「先」「ほど」「の」「議題」「に」「件」「です」「が」)の各々が、音声インデックスに含まれる文字列と一致し、終端の文字列「が」も、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「が」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「が」に対応する音声位置情報「2800ms−2900ms」の終点2900msを、作成済み音声位置情報として推定する。
この例では、入力済みテキストを構成する文字列のうち、音声インデックスに含まれない文字列「のぼった」を無視し、終端の文字列が、音声インデックスに含まれている文字列と一致していることを優先して、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定している。すなわち、テキストを構成する文字列の終端の文字列が、音声インデックスに含まれている文字列と一致している場合は、無条件に、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定しているが、これに限らず、例えば終端の文字列が、音声インデックスに含まれている文字列と一致している場合であっても、所定の条件を満たさない限りは、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定することはしない構成であってもよい。
上記所定の条件は任意に設定可能である。例えば推定部18は、入力済みテキストを構成する文字列のうち音声インデックスに含まれる文字列と一致する文字列の数が所定数以上である場合は、所定の条件を満たすと判断することもできる。また、例えば推定部18は、入力済みテキストを構成する文字列であって終端の文字列以外の文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在し、その文字列のうち終端の文字列に最も近い文字列に対応する音声位置情報が示す位置と、終端の文字列に対応する音声位置情報が示す位置との差が所定範囲内である場合は、所定の条件を満たすと判断することもできる。
再び図1に戻って説明を続ける。設定部19は、推定部18で推定された作成済み音声位置情報に基づいて、音声データのうち再生が開始される位置を示す再生開始位置を設定する。本実施形態では、設定部19は、推定部18で推定された作成済み音声位置情報が示す位置を、再生開始位置に設定する。再生指示受付部20は、音声データの再生を指示する再生指示を受け付ける。例えばユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された再生用ボタンを選択することで、再生指示を入力することができるが、これに限らず、再生指示の入力方法は任意である。なお、本実施形態では、ユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された停止用ボタン、巻き戻し用ボタン、早送り用ボタンなどを選択することで、各種の指示を入力することができる。そして、その入力に応じて音声データの再生が制御される。
再生制御部21は、再生指示受付部20で再生指示を受け付けた場合、設定部19で設定された再生開始位置から音声データを再生するように再生部12を制御する。再生制御部21は、例えばPCのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
本実施形態では、上述の第1記憶部11、再生部12および第2記憶部15はハードウェア回路で構成される。一方、上述の音声認識部13、インデックス生成部14、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20および再生制御部21の各々は、PCに搭載されたCPUがROMなどに格納された制御プログラムを実行することにより実現されるが、これに限らず、例えば音声認識部13、インデックス生成部14、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20および再生制御部21のうちの少なくとも一部がハードウェア回路で構成されてもよい。
以上に説明したように、本実施形態の書き起こし支援システム100は、音声データに対する音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの音声位置情報とを対応付けた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置(つまりは書き起しが完了した位置)を示す作成済み音声位置情報を推定する。これにより、ユーザーが、音声データに含まれるフィラーや文法的な誤りを修正しながら書き起こし作業を行い、入力済みテキストと、音声テキストデータ(音声認識結果)とが相違する場合であっても、音声データのうち書き起こしが完了した位置を正確に特定することができる。また、本実施形態の書き起こし支援システム100は、推定した作成済み音声位置情報が示す音声データの位置を再生開始位置に設定するので、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら、書き起こしが完了した位置に再生開始位置を合わせる必要はない。これにより、作業効率を向上させることが可能になる。
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
(1)変形例1
上述の実施形態では、書き起こし支援システムとして、PCが採用されているが、これに限定されるものではない。例えば、音声データを再生する機能を有する第1装置(テープレコーダー等)と、テキスト作成機能を有する第2装置とを含むシステムが、書き起こし支援システムとして採用されてもよい。そして、上述した各部(第1記憶部11、再生部12、音声認識部13、インデックス生成部14、第2記憶部15、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20、再生制御部21)が、第1装置および第2装置の何れかに含まれていればよい。
(2)変形例2
上述の実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。英語音声を聞いて書き起こしを行う場合、書き起こし文は英語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第1再生時間および第2再生時間の推定が異なる。英語の場合の入力文字列はアルファベットであるため、アルファベット列に対する音素継続時間を使用する必要がある。これに関しては母音・子音の音素継続時間や音節単位での継続時間を使って上述の第1再生時間および第2再生時間を推定してもよい。中国語音声を聞いて書き起こしを行う場合、書き起こし文は中国語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第1再生時間および第2再生時間の推定が異なる。中国語の場合は入力文字ごとにピン音が決まっているため、ピン音列に対する音素継続時間を使用して第1再生時間および第2再生時間を推定する。
11 第1記憶部
12 再生部
13 音声認識部
14 インデックス生成部
15 第2記憶部
16 入力受付部
17 テキスト作成部
18 推定部
19 設定部
20 再生指示受付部
21 再生制御部
100 書き起こし支援システム

Claims (13)

  1. 音声データに対応するテキストを構成する文字列の終端の文字列が、前記音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、前記終端の文字列以外の文字列の中に、前記音声テキストデータに含まれる文字列と一致する文字列が存在する場合、前記一致する文字列の前記音声データにおける位置情報から、前記音声データにおける前記終端の文字列の位置情報を取得する処理部を備える、
    テキスト処理装置。
  2. 前記音声データに対応するテキストを取得する取得部をさらに備える、
    請求項1に記載のテキスト処理装置。
  3. 前記取得部は、前記音声データを聞いたユーザーの入力に応じて前記音声データに対応するテキストを取得する、
    請求項2に記載のテキスト処理装置。
  4. 前記終端の文字列の位置情報と、前記一致する文字列の位置情報との差が所定範囲内である場合に、前記音声データを再生する、
    請求項1乃至3のうちの何れか1項に記載のテキスト処理装置。
  5. 前記処理部は、前記一致する文字列のうち前記終端の文字列に最も近い文字列の前記音声データにおける位置情報を用いて前記終端の文字列の位置情報を取得する、
    請求項1乃至4のうちの何れか1項に記載のテキスト処理装置。
  6. 前記処理部は、予め定められた音素継続時間を用いて、前記終端の文字列の位置情報を取得する、
    請求項1乃至5のうちの何れか1項に記載のテキスト処理装置。
  7. 前記処理部は、前記予め定められた音素継続時間を用いて、前記一致する文字列のうち前記終端の文字列に最も近い文字列から前記終端の文字列までを再生するのに要する時間を推定し、前記一致する文字列のうち前記終端の文字列に最も近い文字列の位置情報から前記推定した時間だけ先の位置情報を、前記終端の文字列の位置情報として取得する、
    請求項6に記載のテキスト処理装置。
  8. 前記処理部は、前記音声データに対応するテキストを構成する文字列の終端の文字列が、前記音声テキストデータに含まれる文字列と一致せず、かつ、前記終端の文字列以外の文字列の中に、前記音声テキストデータに含まれる文字列と一致する文字列が所定数以上存在する場合、前記音声データにおける前記終端の文字列の位置情報を取得する、
    請求項1乃至7のうちの何れか1項に記載のテキスト処理装置。
  9. 前記音声テキストデータを記憶する記憶部をさらに備える、
    請求項1乃至のうちの何れか1項に記載のテキスト処理装置。
  10. 前記音声データに対応するテキストを構成する文字列は形態素を単位とする、
    請求項1乃至のうちの何れか1項に記載のテキスト処理装置。
  11. 前記終端の文字列の位置情報に基づいて前記音声データを再生する再生部をさらに備える、
    請求項1乃至10のうちの何れか1項に記載のテキスト処理装置。
  12. コンピュータが実行するテキスト処理方法であって、
    音声データに対応するテキストを構成する文字列の終端の文字列が、前記音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、前記終端の文字列以外の文字列の中に、前記音声テキストデータに含まれる文字列と一致する文字列が存在する場合、前記一致する文字列の前記音声データにおける位置情報から、前記音声データにおける前記終端の文字列の位置情報を取得する、
    テキスト処理方法。
  13. コンピュータに、
    音声データに対応するテキストを構成する文字列の終端の文字列が、前記音声データの認識処理により得られる音声テキストデータに含まれる文字列と一致せず、かつ、前記終端の文字列以外の文字列の中に、前記音声テキストデータに含まれる文字列と一致する文字列が存在する場合、前記一致する文字列の前記音声データにおける位置情報から、前記音声データにおける前記終端の文字列の位置情報を取得する機能を実現させるためのテキスト処理プログラム。
JP2016104588A 2016-05-25 2016-05-25 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム Expired - Fee Related JP6387044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016104588A JP6387044B2 (ja) 2016-05-25 2016-05-25 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016104588A JP6387044B2 (ja) 2016-05-25 2016-05-25 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015091893A Division JP2015187733A (ja) 2015-04-28 2015-04-28 書き起こし支援システムおよび書き起こし支援方法

Publications (2)

Publication Number Publication Date
JP2016177311A JP2016177311A (ja) 2016-10-06
JP6387044B2 true JP6387044B2 (ja) 2018-09-05

Family

ID=57069200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016104588A Expired - Fee Related JP6387044B2 (ja) 2016-05-25 2016-05-25 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム

Country Status (1)

Country Link
JP (1) JP6387044B2 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351484A (ja) * 2001-05-28 2002-12-06 Clarion Co Ltd 音声読み上げ装置及びその制御方法
JP4558308B2 (ja) * 2003-12-03 2010-10-06 ニュアンス コミュニケーションズ,インコーポレイテッド 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP4020083B2 (ja) * 2004-02-16 2007-12-12 日本電気株式会社 書き起こしテキスト作成支援システムおよびプログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP4724051B2 (ja) * 2006-06-12 2011-07-13 日本電信電話株式会社 キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP4398966B2 (ja) * 2006-09-26 2010-01-13 株式会社東芝 機械翻訳を行う装置、システム、方法およびプログラム
JP5149107B2 (ja) * 2008-08-29 2013-02-20 日本放送協会 音響処理装置およびプログラム
JP5265445B2 (ja) * 2009-04-28 2013-08-14 日本放送協会 話題境界検出装置及びコンピュータプログラム
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP5787780B2 (ja) * 2012-01-25 2015-09-30 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法

Also Published As

Publication number Publication date
JP2016177311A (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
US10522133B2 (en) Methods and apparatus for correcting recognition errors
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
US20140372117A1 (en) Transcription support device, method, and computer program product
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
US20060195318A1 (en) System for correction of speech recognition results with confidence level indication
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
US20210064327A1 (en) Audio highlighter
US9798804B2 (en) Information processing apparatus, information processing method and computer program product
US8553855B2 (en) Conference support apparatus and conference support method
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP5818753B2 (ja) 音声対話システム及び音声対話方法
US20140207454A1 (en) Text reproduction device, text reproduction method and computer program product
JP7416078B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP4979336B2 (ja) 音声出力装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180810

R151 Written notification of patent or utility model registration

Ref document number: 6387044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees