JP2014240940A - 書き起こし支援装置、方法、及びプログラム - Google Patents

書き起こし支援装置、方法、及びプログラム Download PDF

Info

Publication number
JP2014240940A
JP2014240940A JP2013124196A JP2013124196A JP2014240940A JP 2014240940 A JP2014240940 A JP 2014240940A JP 2013124196 A JP2013124196 A JP 2013124196A JP 2013124196 A JP2013124196 A JP 2013124196A JP 2014240940 A JP2014240940 A JP 2014240940A
Authority
JP
Japan
Prior art keywords
speech
speech speed
voice
speed
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013124196A
Other languages
English (en)
Inventor
康太 中田
Kota Nakata
康太 中田
平 芦川
Taira Ashikawa
平 芦川
朋男 池田
Tomoo Ikeda
朋男 池田
上野 晃嗣
Akitsugu Ueno
晃嗣 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013124196A priority Critical patent/JP2014240940A/ja
Priority to US14/197,694 priority patent/US20140372117A1/en
Priority to CN201410089873.4A priority patent/CN104240718A/zh
Publication of JP2014240940A publication Critical patent/JP2014240940A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Abstract

【課題】利便性の向上を図ることができる書き起こし支援装置、方法、及びプログラムを提供する。【解決手段】第1音声取得部は、再生される第1音声を取得する。第2音声取得部は、ユーザが発話した第2音声を取得する。認識部は、第2音声を認識して第1テキストを生成する。テキスト取得部は、第1テキストがユーザにより修正された第2テキストを取得する。情報取得部は、第1音声の再生区間を表す再生情報を取得する。決定部は、第1音声と、第2音声と、第2テキストと、再生情報とに基づき、第1音声の再生速度を決定する。制御部は、第1音声を、決定した再生速度で再生する。【選択図】図4

Description

本発明の実施形態は、書き起こし支援装置、方法、及びプログラムに関する。
書き起こし作業とは、例えば、録音された音声データを聞きながら、音声の内容を文章にする(テキストに書き起こす)作業のことである。そこで、従来から、書き起こす音声を聞いた後に同じ内容が再発話された音声を認識することで、書き起こし作業の負担を軽減する技術が知られている。
特開2009−210942号公報
しかしながら、従来の技術は、ユーザの作業習熟度に応じて、書き起こし作業を支援するものではない。そのため、従来の技術を用いた支援サービスは、ユーザにとって利便性のよいものではない。
実施形態に係る書き起こし支援装置は、第1音声取得部と、第2音声取得部と、認識部と、テキスト取得部と、情報取得部と、決定部と、制御部とを備える。第1音声取得部は、再生される第1音声を取得する。第2音声取得部は、ユーザが発話した第2音声を取得する。認識部は、前記第2音声を認識して第1テキストを生成する。テキスト取得部は、前記第1テキストがユーザにより修正された第2テキストを取得する。情報取得部は、前記第1音声の再生区間を表す再生情報を取得する。決定部は、前記第1音声と、前記第2音声と、前記第2テキストと、前記再生情報とに基づき、前記第1音声の再生速度を決定する。制御部は、前記第1音声を、決定した前記再生速度で再生する。
第1の実施形態に係る書き起こし支援システムの構成例を示す図。 第1の実施形態に係る書き起こし支援サービスの利用例を示す図。 第1の実施形態に係る書き起こし支援サービスの操作画面例を示す図。 第1の実施形態に係る書き起こし支援システムの機能構成例を示す図。 第1の実施形態に係るユーザ話速推定時の処理例を示すフローチャート。 第1の実施形態に係る音素列への変換例を示す図。 第1の実施形態に係るユーザ音声の発話区間を示す図。 第1の実施形態に係るオリジナル話速推定時の処理例を示すフローチャート。 第1の実施形態に係るオリジナル音声の発話区間を示す図。 第1の実施形態に係る連続モードにおける再生速度の調整量算出時の処理例を示すフローチャート。 第1の実施形態に係る断続モードにおける再生速度の調整量算出時の処理例を示すフローチャート。 実施形態に係る書き起こし支援装置の構成例を示す図。
以下に、添付図面を参照して、書き起こし支援装置、方法、及びプログラムの実施形態を詳細に説明する。
[第1の実施形態]
<概要>
本実施形態に係る書き起こし支援装置が有する機能(以下「書き起こし支援機能」という)について説明する。本実施形態に係る書き起こし支援装置は、ユーザからの操作指示を受け付けて、書き起こす音声(以下「オリジナル音声」という)を再生又は停止する。このとき書き起こし支援装置は、オリジナル音声の再生開始時刻と再生停止時刻とが記録された再生情報を得る。本実施形態に係る書き起こし支援装置は、ユーザがオリジナル音声を聞いた後に、当該オリジナル音声と同じ内容の文章を再発話した音声(以下「ユーザ音声」という)を認識し、音声認識結果として認識文字列(第1テキスト)を得る。本実施形態に係る書き起こし支援装置は、認識文字列を画面に表示し、ユーザからの編集入力を受け付けて、編集中のテキスト(第2テキスト)を得る。本実施形態に係る書き起こし支援装置は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストと、オリジナル音声の再生情報とに基づき、ユーザの作業習熟度を判定し、オリジナル音声の再生速度を決定する。本実施形態に係る書き起こし支援装置は、オリジナル音声を、決定した再生速度で再生する。これにより、本実施形態に係る書き起こし支援装置は、ユーザの利便性の向上を図ることができる。
以下に、本実施形態に係る書き起こし支援機能の構成とその動作について説明する。
《システム構成》
図1は、本実施形態に係る書き起こし支援システム1000の構成例を示す図である。図1に示すように、本実施形態に係る書き起こし支援システム1000は、書き起こし支援装置100と、1又は複数のユーザ端末200〜200(以下総称する場合「ユーザ端末200」という)などを備える。書き起こし支援システム1000は、各装置100,200がデータ伝送路Nを介して相互に接続されている。
本実施形態に係る書き起こし支援装置100は、演算装置を備えサーバ機能を有する機器であり、サーバ装置などに相当する。本実施形態に係るユーザ端末200は、演算装置を備えクライアント機能を有する機器であり、例えばPC(Personal Computer)などのクライアント装置に相当する。なお、ユーザ端末200には、タブレットなどの情報端末も含まれる。本実施形態に係るデータ伝送路Nは、例えばLAN(Local Area Network)、イントラネット、イーサネット(登録商標)、又はインターネットなどの各種ネットワーク通信路に相当する。なお、ネットワーク通信路では、有線又は無線を問わない。
本実施形態に係る書き起こし支援システム1000は、次のような利用場面を想定している。図2は、本実施形態に係る書き起こし支援サービスの利用例を示す図である。図2に示すように、例えばユーザUは、まず、ユーザ端末200に接続されたヘッドフォン(以下「スピーカー」という)93を耳にあて、再生したオリジナル音声を聞く。ユーザUは、オリジナル音声を一定時間聞くと、オリジナル音声の再生を停止し、ユーザ端末200に接続されたマイク91に向かって、オリジナル音声から聞き取った内容を発話する。その結果、ユーザ端末200は、マイク91を介して入力されたユーザ音声を、書き起こし支援装置100に送信する。これを受けて書き起こし支援装置100は、受信したユーザ音声を認識し、音声認識結果として得た認識文字列を、ユーザ端末200に送信する。これにより、ユーザ端末200の画面には、ユーザ音声の音声認識結果がテキスト表示される。その後、ユーザUは、表示されたテキストの内容が、再発話したオリジナル音声の内容と同じか否かを確認し、誤った認識箇所があれば、ユーザ端末200が備えるキーボード92からの入力により、該当箇所を修正し、音声認識結果を編集する。
図3は、本実施形態に係る書き起こし支援サービスの操作画面例を示す図である。ユーザ端末200には、再発話によるテキスト書き起こし作業を支援するUI(User Interface)として、例えば図3に示すような操作画面Wが表示される。本実施形態に係る操作画面Wは、音声の再生操作を受け付ける操作領域R1と、音声認識結果の編集操作を受け付ける操作領域R2となどを有する。
本実施形態に係る操作領域R1は、音声の再生時間を表すタイムゲージGと、音声の再生操作を制御する制御ボタンB1などのUI部品(ソフトウェア部品)を備える。これにより、ユーザUは、オリジナル音声の再生時間を確認しながら、音声を再生又は停止し、オリジナル音声から聞き取った内容を発話することができる。
また、本実施形態に係る操作領域R1は、音声の再生方法(以下「再生モード」という)を選択する選択ボタンB2を備える。本実施形態では、[連続]と[断続]との2つの再生モード(以下「連続モード」と「断続モード」という)を選択可能となっている。連続モードは、ユーザUがオリジナル音声を聞きながら、少し後に再発話する場合に利用する再生モードに相当する。連続モードでは、再発話時にオリジナル音声を停止しないため、ユーザ音声の音声認識結果が正確であれば、オリジナル音声と同じ速さで音声をテキストに書き起こすことができる。一方、断続モードは、ユーザUがオリジナル音声を聞き、一度オリジナル音声を停止し、再発話した後に、再生を再開する場合に利用する再生モード(再生と停止を繰り返す再生モード)に相当する。作業習熟度の低いユーザUにとっては、再発話の際にオリジナル音声が聞こえると発話がしにくい場合がある。そのため、断続モードは、再生中のオリジナル音声を一度停止し、ユーザUに対して、再発話のタイミングを与えることで、スムーズな発話を促し、音声をテキストに書き起こすことができる。
このように、ユーザUは、作業習熟度に応じた再生モードを利用して、再発話によるテキスト書き起こし作業を行うことができる。
また、本実施形態に係る操作領域R2は、テキストを編集するテキストボックスTBなどのUI部品を備える。図3には、音声認識結果として「私の名前は太郎です。」のテキストTをテキストボックスTB内に表示する例が示されている。これにより、ユーザUは、表示されたテキストTの内容が、再発話したオリジナル音声の内容と同じか否かを確認し、誤った認識箇所を修正することで、音声認識結果を編集することができる。
以上のように、本実施形態に係る書き起こし支援システム1000は、上記構成とUIにより、再発話によるテキスト書き起こし作業を支援する書き起こし支援機能を提供する。
《機能構成》
図4は、本実施形態に係る書き起こし支援システム1000の機能構成例を示す図である。図4に示すように、本実施形態に係る書き起こし支援システム1000は、オリジナル音声取得部11と、ユーザ音声取得部12と、ユーザ音声認識部13と、再生制御部14と、テキスト取得部15と、再生情報取得部16と、再生速度決定部17とを有する。また、本実施形態に係る書き起こし支援システム1000は、音声入力部21と、テキスト処理部22と、再生UI部23と、再生部24とを有する。
オリジナル音声取得部11と、ユーザ音声取得部12と、ユーザ音声認識部13と、再生制御部14と、テキスト取得部15と、再生情報取得部16と、再生速度決定部17とは、本実施形態に係る書き起こし支援装置100が有する機能部である。また、音声入力部21と、テキスト処理部22と、再生UI部23と、再生部24とは、本実施形態に係るユーザ端末200が有する機能部である。
《ユーザ端末200の機能》
本実施形態に係る音声入力部21は、音声の外部入力を受け付ける。音声入力部21は、例えば図2に示すマイク92などの外部装置を介して、音声入力を受け付ける。よって、本実施形態に係る書き起こし支援システム1000では、音声入力部21が、再発話によるユーザ音声の入力を受け付ける。
本実施形態に係るテキスト処理部22は、テキスト編集を処理する。テキスト処理部22は、例えば図3に示す操作領域R2に音声認識結果のテキストTを表示する。テキスト処理部22は、例えば図2に示すキーボード93などの外部装置を介して、表示されたテキストTに対する文字入力や文字削除などの編集操作を受け付ける。よって、本実施形態に係る書き起こし支援システム1000では、テキスト処理部22が、誤った認識箇所の修正など編集入力を受け付けて、ユーザ音声の音声認識結果を正しい内容に編集する。
本実施形態に係る再生UI部23は、音声の再生操作を受け付ける。再生UI部23は、例えば図3に示す操作領域R1に制御ボタンB1や選択ボタンB2(以下総称する場合「ボタンB」という)を表示する。再生UI部23は、例えば図2に示すキーボード92(又はマウスなどのポインティングデバイス)などの外部装置を介して、表示されたボタンBの押下による音声の再生制御指示を受け付ける。よって、本実施形態に係る書き起こし支援システム1000では、再生UI部23が、再発話時のオリジナル音声の再生・停止の制御指示や再生モードの選択指示を受け付ける。
本実施形態に係る再生部24は、音声を再生する。再生部24は、例えば図2に示すスピーカー93などの外部装置を介して、再生された音声を出力する。よって、本実施形態に係る書き起こし支援システム1000では、再生部24が、再発話時に再生されたオリジナル音声を出力する。
《書き起こし支援装置100の機能》
本実施形態に係るオリジナル音声取得部(第1音声取得部)11は、書き起こし対象に相当するオリジナル音声(第1音声)を取得する。オリジナル音声取得部11は、例えば書き起こし支援装置100が備える記憶装置(又は接続される外部記憶装置)の所定の記憶領域に保持されるオリジナル音声を取得する。このとき取得するオリジナル音声は、例えば会議や講義などを録音した音声に相当し、数分から数時間の間、連続して録音された音声データである。なお、オリジナル音声取得部11は、例えば図3に示す操作画面Wのように、ユーザUがオリジナル音声を選択可能なUI機能を提供するようにしてもよい。この場合、オリジナル音声取得部11は、1又は複数の音声データをオリジナル音声の候補として表示し、ユーザUの選択結果を受け付ける。オリジナル音声取得部11は、受け付けた選択結果から特定した該当音声データをオリジナル音声として取得する。
本実施形態に係るユーザ音声取得部(第2音声取得部)12は、ユーザがオリジナル音声を聞いた後に、当該オリジナル音声と同じ内容の文章を再発話した音声であるユーザ音声(第2音声)を取得する。ユーザ音声取得部12は、音声入力部21により入力されたユーザ音声をユーザ端末200が有する音声入力部21から取得する。なお、ユーザ音声の取得方法は、受動的な取得又は能動的な取得であってもよい。ここでいう受動的な取得とは、ユーザ端末200から送信されたユーザ音声の音声データを書き起こし支援装置100が受信する方法である。一方、能動的な取得とは、書き起こし支援装置100がユーザ端末200に対して音声データの取得を要求し、ユーザ端末200で一時保持されるユーザ音声の音声データを取得する方法である。
本実施形態に係るユーザ音声認識部13は、ユーザ音声の音声認識処理を行う。ユーザ音声認識部13は、ユーザ音声取得部12が取得した音声データに対して音声認識処理を行い、ユーザ音声をテキストT(第1テキスト)に変換し、音声認識結果を得る。ユーザ音声認識部13は、音声認識結果として得たテキストTをユーザ端末200が有するテキスト処理部22に送信する。なお、本実施形態では、公知技術を用いて上記音声認識処理を実現する。そのため、本実施形態に係る音声認識処理については、その説明を省略する。
本実施形態に係る再生制御部14は、オリジナル音声の再生速度を制御する。再生制御部14は、オリジナル音声取得部11が取得した音声データの再生速度を制御する。このとき再生制御部14は、再生速度決定部17が決定した再生速度に従って、ユーザ端末200が有する再生部24を制御することで、オリジナル音声の音声データを再生する。また、再生制御部14は、ユーザ端末200(再生UI部23)やユーザ音声取得部12などから、オリジナル音声の再生又は停止の制御指示(再生又は停止の制御信号)を受け付けた場合、受け付けた操作指示に従って、オリジナル音声の再生・停止を制御する。
本実施形態に係るテキスト取得部15は、ユーザに提示されたテキストTがユーザにより修正されたテキストT2(第2テキスト)を取得する。テキスト取得部15は、テキスト処理部22により編集中のテキストT2をユーザ端末200が有するテキスト処理部22から取得する。このとき取得するテキストT2は、ユーザ音声認識部13によるユーザ音声の音声認識結果に相当し、オリジナル音声の再発話内容と同じ文字列、又は、誤った認識箇所が修正された内容の文字列となる。なお、テキストT2の取得方法は、受動的な取得又は能動的な取得であってもよい。ここでいう受動的な取得とは、ユーザ端末200から送信された編集中のテキストT2を書き起こし支援装置100が受信する方法である。一方、能動的な取得とは、書き起こし支援装置100がユーザ端末200に対してテキストT2の取得を要求し、ユーザ端末200で一時保持される編集中のテキストT2を取得する方法である。
本実施形態に係る再生情報取得部16は、オリジナル音声の再生区間を表す再生情報を取得する。再生情報取得部16は、再発話時に、再生制御部14により再生中のオリジナル音声が停止された場合、ユーザUが聞いたオリジナル音声の再生区間を表す時刻情報を再生情報として取得する。このとき取得する再生情報は、例えば(式1)の時刻情報(タイムスタンプ情報)に相当する。
(t_os,t_oe) = (0:21.1,0:39.4) ・・・ (式1)
式中のt_osはオリジナル音声の再生開始時刻を表し、式中のt_oeはオリジナル音声の再生停止時刻を表している。(式1)には、オリジナル音声が0分21.1[秒]の時点から再生開始され、0分39.4[秒]の時点で停止された場合に取得される再生情報が示されている。このように、再生情報取得部16は、再生制御部14の再生制御結果に基づき、再発話時に再生されたオリジナル音声の再生開始時刻t_osと再生停止時刻t_oeとが組み合わされた時刻情報を、オリジナル音声の再生情報として取得する。
本実施形態に係る再生速度決定部17は、再発話時のオリジナル音声の再生速度を決定する。再生速度決定部17は、オリジナル音声取得部11からオリジナル音声の音声データを受け取り、ユーザ音声取得部12からユーザ音声の音声データを受け取る。また、再生速度決定部17は、テキスト取得部15から編集中のテキスト(第2テキスト)を受け取り、再生情報取得部16からオリジナル音声の再生情報を受け取る。再生速度決定部17は、これらの機能部から受け取ったデータに基づき、ユーザUの作業習熟度に応じた、再発話時のオリジナル音声の適切な再生速度を決定する。具体的には、再生速度決定部17は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストと、オリジナル音声の再生情報と、に基づき、ユーザUの作業習熟度を判定する。再生速度決定部17は、判定結果から、再発話時のオリジナル音声の再生速度をユーザUごとに決定する。そこで、本実施形態に係る再生速度決定部17は、ユーザ話速推定部171と、オリジナル話速推定部172と、速度調整量算出部173とを有している。
<詳細>
ここからは、本実施形態に係る再生速度決定部17の詳細な動作について、上記機能部ごとに説明する。
《再生速度決定部17の詳細》
(ユーザ話速推定部171)
本実施形態に係るユーザ話速推定部(第2話速推定部)171は、再発話時のユーザUの話速(以下「ユーザ話速」という)を推定する。ユーザ話速推定部171は、音声認識結果として取得したテキストTを、発音単位に相当する音素列に変換し、音素列とユーザ音声との強制アラインメント(forced alignment)をとる。このときユーザ話速推定部171は、例えば音素などの言語的要素の単位時間あたりの出現回数から、ユーザ音声における音素列の位置を特定する。これにより、ユーザ話速推定部171は、ユーザ音声におけるユーザUの発話区間(以下「ユーザ発話区間」という)を特定する。ユーザ話速推定部171は、音素列の長さ(テキストTの音素数)とユーザ発話区間(第2発話区間)の長さ(発話した期間)とから、ユーザ話速(第2話速)を推定する。具体的には、ユーザ話速推定部171は、次のような処理により、ユーザ音声におけるユーザ話速を推定する。
図5は、本実施形態に係るユーザ話速推定時の処理例を示すフローチャートである。図5に示すように、本実施形態に係るユーザ話速推定部171は、まず、テキストTを音素列に変換する(ステップS11)。このときの音素列の変換は、例えば辞書や文脈による読み仮名変換などの公知技術を用いる。
図6は、本実施形態に係る音素列への変換例を示す図である。ユーザ話速推定部171は、例えば「私の名前は太郎です。」というテキストTを音声認識結果として得た場合、「私の名前は太郎です。」を読み仮名に変換した後に、音素列に変換する。その結果、ユーザ話速推定部171は、図6に示すような24音素(音素数)を有する音素列「w a t a sh i n o n a m a e w a t a r o o d e s u」を得る。
図5の説明に戻る。次にユーザ話速推定部171は、音素列とユーザ音声とから、ユーザ音声におけるユーザ発話区間を推定する(ステップS12)。このときユーザ話速推定部171は、音素列とユーザ音声とを強制アラインメントにより対応させることで、ユーザ発話区間を推定する。
例えばユーザUは、再発話時に、録音開始と同時に発話を開始し、録音終了と同時に発話を終了するとは限らない。そのため、ユーザ音声には、オリジナル音声において、書き起こし対象箇所の前後で書き起こされなかったフィラーや、録音環境による周囲の雑音などが録音されてしまう可能性がある。このように、ユーザ音声の録音時間には、ユーザ発話区間とユーザ非発話区間とが含まれている。そのため、ユーザ話速推定部171は、正確なユーザ話速を推定するために必要なユーザ発話区間を推定する。
図7は、本実施形態に係るユーザ音声の発話区間(ユーザ発話区間)を示す図である。図7には、録音時間が4.5[秒](t_us=0.0[秒]〜t_ue=4.5[秒])のユーザ音声が示されている。その中で、「私の名前は太郎です。」の音素列に対応するユーザ発話区間は、t_uvs=1.1[秒]からt_uve=3.2[秒]までの2.1[秒]の間である。ユーザ話速推定部171は、強制アラインメントにより、「私の名前は太郎です。」の音素列とユーザ音声との対応関係をとることで、ユーザ音声におけるユーザUの発話開始時刻t_uvsと発話終了時刻t_uveとを推定する。これにより、ユーザ話速推定部171は、ユーザ音声におけるユーザ発話区間を、ユーザ非発話区間を含む録音時間の4.5[秒]ではなく、2.1[秒]と正確に推定できる。
図5の説明に戻る。次にユーザ話速推定部171は、音素列の長さとユーザ発話区間の長さとから、ユーザ音声におけるユーザ話速V_uを推定する(ステップS13)。このときユーザ話速推定部171は、(式2)を用いて、ユーザ音声におけるユーザ話速V_uの推定値を算出する。
V_u = l_ph / dt_u ・・・ (式2)
式中のl_phはテキストTの音素列の長さを表し、式中のdt_uはユーザ発話区間の長さを表している。よって、(式2)で算出されるユーザ話速の推定値V_uは、ユーザ発話区間において、1[秒]あたりに発話される音素数の平均値に相当する。例えば本実施形態の場合には、ユーザ発話区間の長さdt_uが2.1[秒]、また、テキストTの音素列の長さl_phが24[音素]であることから、ユーザ話速の推定値V_uは11.5となる。このように、ユーザ話速推定部171は、ユーザ発話区間における単位時間あたりの音素数の平均値を算出し、算出値をユーザ話速の推定値V_uとしている。
(オリジナル話速推定部172)
本実施形態に係るオリジナル話速推定部(第1話速推定部)172は、再発話時に再生されるオリジナル音声の話速(以下「オリジナル話速」という)を推定する。オリジナル話速推定部172は、音声認識結果として取得したテキストTを、発音単位に相当する音素列に変換する。オリジナル話速推定部172は、再発話時のオリジナル音声の再生情報に基づき、テキストTの内容に対応する音声に相当すると考えられる音声データ(以下「オリジナル関連音声」という)をオリジナル音声から取得する。なお、ここでいうテキストTの内容とは、オリジナル音声の中で、ユーザUにより再発話された内容に相当する。オリジナル話速推定部172は、音素列とオリジナル関連音声との強制アラインメントをとる。このときオリジナル話速推定部172は、オリジナル関連音声における音素列の位置を特定する。これにより、オリジナル話速推定部172は、オリジナル関連音声においてユーザUが再発話した区間(以下「オリジナル発話区間」という)を特定する。オリジナル話速推定部172は、音素列の長さとオリジナル発話区間(第1発話区間)の長さ(再発話された期間)から、オリジナル話速(第1話速)を推定する。具体的には、オリジナル話速推定部172は、次のような処理により、オリジナル音声におけるオリジナル話速を推定する。
図8は、本実施形態に係るオリジナル話速推定時の処理例を示すフローチャートである。図8に示すように、本実施形態に係るオリジナル話速推定部172は、まず、テキストTを音素列に変換する(ステップS21)。このときの音素列の変換は、ユーザ話速推定部171と同様に公知技術を用いる。オリジナル話速推定部172は、例えば「私の名前は太郎です。」というテキストTを音声認識結果として得た場合、「私の名前は太郎です。」を読み仮名に変換した後に、音素列に変換する。その結果、オリジナル話速推定部172は、図6に示すような24音素(音素数)を有する音素列を得る。
次にオリジナル話速推定部172は、再生情報に基づき、オリジナル関連音声をオリジナル音声から取得する(ステップS22)。
図9は、本実施形態に係るオリジナル音声の発話区間(オリジナル発話区間)を示す図である。図9には、再生時間が18.3[秒](t_os=21.1[秒]〜t_oe=39.4[秒])のオリジナル音声が示されている。この再生時間は、ユーザUが、オリジナル音声を再生・停止し、聞き取った「私の名前は太郎です。」を再発話し、再発話した音声の音声認識が完了したことを意味している。そのため、オリジナル話速推定部172は、再生開始時刻t_os=21.1[秒]から再生停止時刻t_oe=39.4[秒]までの音声データを、オリジナル関連音声として取得する。
次にオリジナル話速推定部172は、音素列とオリジナル関連音声とから、オリジナル関連音声におけるオリジナル発話区間を推定する(ステップS23)。このときオリジナル話速推定部172は、音素列とオリジナル関連音声とを強制アラインメントにより対応させることで、オリジナル発話区間を推定する。
例えば再発話時には、ユーザUが、再生したオリジナル音声の内容をすべて再発話するとは限らない。なぜなら、オリジナル音声には、例えば会議中に資料を探す音や休憩中の雑談など、書き起こす必要のない区間が含まれている可能性がある。このように、オリジナル音声の録音時間には、書き起こすためにユーザUが再発話するオリジナル発話区間と書き起こす必要がないためユーザUが再発話しないオリジナル非発話区間とが含まれている。そのため、オリジナル話速推定部172は、正確なオリジナル話速を推定するためにオリジナル発話区間を推定する。
図9には、オリジナル音声の中で、再生開始時刻t_os=21.1[秒]から再生停止時刻t_oe=39.4[秒]までの音声データを、オリジナル関連音声として取得した場合の例が示されている。その中で、「私の名前は太郎です。」の音素列に対応する音声を含むことが想定されるオリジナル発話区間は、t_ovs=33.6[秒]からt_ove=35.0[秒]までの1.4[秒]の間である。オリジナル話速推定部172は、強制アラインメントにより、「私の名前は太郎です。」の音素列とオリジナル関連音声との対応関係をとることで、オリジナル関連音声におけるユーザUの再発話開始時刻t_ovsと再発話終了時刻t_oveとを推定する。これにより、オリジナル話速推定部172は、オリジナル関連音声におけるオリジナル発話区間を、オリジナル非発話区間を含む録音時間の18.3[秒]ではなく、1.4[秒]と推定できる。
図8の説明に戻る。次にオリジナル話速推定部172は、音素列の長さとオリジナル発話区間の長さから、オリジナル音声におけるオリジナル話速V_oを推定する(ステップS24)。このときオリジナル話速推定部172は、(式3)を用いて、オリジナル関連音声におけるオリジナル話速V_oの推定値を算出する。
V_o = l_ph / dt_o ・・・ (式3)
式中のl_phはテキストTの音素列の長さを表し、式中のdt_oはオリジナル発話区間の長さを表している。よって、(式3)で算出されるオリジナル話速の推定値V_oは、オリジナル発話区間において、1[秒]あたりに再発話された音素数の平均値に相当する。例えば本実施形態の場合には、オリジナル発話区間の長さdt_oが1.4[秒]、また、テキストTの音素列の長さl_phが24[音素]であることから、オリジナル話速の推定値V_oは18.0となる。このように、オリジナル話速推定部172は、オリジナル発話区間における単位時間あたりの音素数の平均値を算出し、算出値をオリジナル話速の推定値V_oとしている。
(速度調整量算出部173)
本実施形態に係る速度調整量算出部173は、ユーザUの作業習熟度に応じて、再発話時のオリジナル音声の再生速度を決定するための調整量を算出する。速度調整量算出部173が算出する調整量は、例えば音声の1[秒]あたりのデータサンプリング数に乗算することで、速度調整可能な係数値に相当する。
速度調整量算出部173は、再発話時のオリジナル音声の再生モードごとに異なる算出処理を行う。具体的には、速度調整量算出部173は、再生モードが連続モード(連続再生)の場合、オリジナル話速推定部172から受け取ったオリジナル話速の推定値V_oと、音声認識話速の設定値V_aとの比率に基づき、音声認識精度を考慮した調整量を算出する。また、速度調整量算出部173は、再生モードが断続モード(断続再生)の場合、ユーザ話速推定部171から受け取ったユーザ話速の推定値V_uと、オリジナル話速推定部172から受け取ったオリジナル話速の推定値V_oとの比率に基づき、ユーザUの作業習熟度を判定し、作業習熟度に応じた調整量を算出する。なお、音声認識話速は、音声認識に好適な話速に相当し、例えば音声認識の学習手法(ユーザ音声認識部13の認識性能)に応じて予め設定できる(学習手法によって事前に与えることができる)。本実施形態では、便宜上、音声認識話速の設定値V_aを10.0とする。
(A).連続モードの場合
図10は、本実施形態に係る連続モードにおける再生速度の調整量算出時の処理例を示すフローチャートである。図10に示すように、本実施形態に係る速度調整量算出部173は、まず、オリジナル話速V_oと音声認識話速V_aとの比率を表す話速比(以下「第1話速比」という)r_oaを算出する(ステップS31)。このとき速度調整量算出部173は、(式4)を用いて、第1話速比r_oaを算出する。
r_oa = V_o / V_a ・・・ (式4)
次に速度調整量算出部173は、算出した第1話速比r_oaと閾値(以下「第1閾値」という)r_th1とを比較し、第1話速比r_oaが第1閾値r_th1より大きいか否かを判定する(ステップS32)。なお、第1閾値r_th1は、オリジナル話速V_oが音声認識話速V_aよりも十分大きいかを判定する基準として予め設定できる(判定基準として事前に与えることができる)。本実施形態では、便宜上、第1閾値r_th1を1.4とする。
その結果、速度調整量算出部173は、第1話速比r_oaが第1閾値r_th1より大きい場合(ステップS32:Yes)、再発話時のオリジナル音声の再生速度の調整量aを算出する(ステップS33)。このとき速度調整量算出部173は、(式5)を用いて、再生速度の調整量aを算出する。
a = V_a /V_o ・・・ (式5)
一方、速度調整量算出部173は、第1話速比r_oaが第1閾値r_th1より小さい、又は、等しい場合(ステップS32:No)、再発話時のオリジナル音声の再生速度の調整量aを1.0に設定する(ステップS34)。
これにより、再生速度決定部17は、速度調整量算出部173で求めた(又は設定された)調整量aから、再発話時のオリジナル音声の再生速度Vを決定する(ステップS35)。このとき再生速度決定部17は、現在のオリジナル音声の1[秒]あたりのデータサンプリング数に調整量aを乗算し、乗算値を調整後のデータサンプリング数とすることで、再生速度Vを決定する。
これを受けて再生制御部14は、再生速度決定部17により決定された再生速度Vで、オリジナル音声を再生する。このようにして、本実施形態に係る書き起こし支援装置100では、連続モードにおける再発話時のオリジナル音声の再生速度Vが調整される。
以下に、具体的な値を用いて上記処理例を説明する。本実施形態では、オリジナル話速の推定値V_oが18.0、音声認識話速の設定値V_aが10.0であることから、ステップS31の算出処理では、第1話速比r_oaが1.8と算出される。よって、ステップS32の判定処理では、第1話速比r_oaが第1閾値r_th1より大きい(1.8>1.4)と判定される。その結果、処理は、ステップS33の算出処理に進み、オリジナル話速の推定値V_oが18.0、音声認識話速の設定値V_aが10.0であることから、再生速度Vの調整量aが0.556と算出される。これにより、本実施形態では、再発話時のオリジナル音声が現在より44.4[%]遅い速度で再生される。
これに対して、例えばオリジナル話速の推定値V_oが12.0であった場合には、ステップS31の算出処理では、第1話速比r_oaが1.2と算出される。よって、ステップS32の判定処理では、第1話速比r_oaが第1閾値r_th1より小さい(1.2<1.4)と判定される。その結果、処理は、ステップS34の設定処理に進み、再生速度Vの調整量aが1.0に設定される。この場合、再発話時のオリジナル音声が現在と同じ速度で再生される。
ユーザUは、連続モードで再生を行う場合、オリジナル音声を聞きながら、少し遅れて再発話を行う。その際、ユーザUは、なるべく発話が途切れないように、オリジナル音声と同じ話速で再発話を行う。しかし、例えばオリジナル音声が、会議などの日常会話を録音した音声データの場合、オリジナル音声の話速が、音声認識に好適な話速に比べて速いことが考えられる。そのため、ユーザUが、オリジナル音声と同じ話速で再発話してしまうことで、再発話を録音したユーザ音声の音声認識の精度が低下する可能性がある。
そこで、本実施形態では、図10の処理P1に示すように、速度調整量算出部173が、第1話速比r_oaと第1閾値r_th1とを比較し、オリジナル話速V_oが音声認識に好適な話速か否かを、比較結果から判定する。その結果、速度調整量算出部173は、オリジナル話速V_oが音声認識話速V_aより速く、音声認識に好適な話速でなかった場合、音声認識話速V_aに近い話速でオリジナル音声を再生する再生速度Vを決定する。これにより、本実施形態に係る書き起こし支援装置100では、音声認識に好適な話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置100では、再発話を録音したユーザ音声を精度よく認識でき、ユーザUの書き起こし作業にかかる負担を軽減できる(書き起こし作業にかかるコストを低減できる)。
(B).断続モードの場合
図11は、本実施形態に係る断続モードにおける再生速度の調整量算出時の処理例を示すフローチャートである。図11に示すように、本実施形態に係る速度調整量算出部173は、まず、オリジナル話速V_oとユーザ話速V_uとの比率を表す話速比(以下「第2話速比」という)r_ouを算出する(ステップS41)。このとき速度調整量算出部173は、(式6)を用いて、第2話速比r_ouを算出する。
r_ou = V_o / V_u ・・・ (式6)
次に速度調整量算出部173は、ユーザ話速V_uと音声認識話速V_aとの比率を表す話速比(以下「第3話速比」という)r_uaを算出する(ステップS42)。このとき速度調整量算出部173は、(式7)を用いて、第3話速比r_uaを算出する。
r_ua = V_u / V_a ・・・ (式7)
次に速度調整量算出部173は、算出した第2話速比r_ouと閾値(以下「第2閾値」という)r_th2とを比較し、第2話速比r_ouが第2閾値r_th2より大きいか否かを判定する(ステップS43)。なお、第2閾値r_th2は、オリジナル話速V_oがユーザ話速V_uよりも十分大きいかを判定する基準として予め設定できる(判定基準として事前に与えることができる)。本実施形態では、便宜上、第2閾値r_th2を1.4とする。
速度調整量算出部173は、第2話速比r_ouが第2閾値r_th2より大きい場合(ステップS43:Yes)、算出した第3話速比r_uaが1の近似値か否かを判定する(ステップS44)。このとき速度調整量算出部173は、(条件式1)を用いて、第3話速比r_uaが1の近似値か否かを判定する。
1−e < r_ua < 1+e ・・・ (条件式1)
式中のeは、第3話速比r_uaが1の近似値かを判定する基準の数値範囲として予め設定できる(判定基準の数値範囲として事前に与えることができる)。よって、(条件式1)では、式中のeに1より小さい値を設定することで、第3話速比r_uaが、±eの数値範囲内で1の近似値の場合に条件を満たすように調整できる。本実施形態では、便宜上、eを0.2とする。よって、本実施形態では、第3話速比r_uaが、0.8より大きく、かつ、1.2より小さい値の場合に(条件式1)を満たすことになる。
その結果、速度調整量算出部173は、第3話速比r_uaが1の近似値の場合(ステップS44:Yes)、再発話時のオリジナル音声の再生速度Vの調整量aを1より大きい所定値に設定する(ステップS45)。本実施形態では、便宜上、調整量aに設定する所定値を1.5とする。
また、速度調整量算出部173は、第2話速比r_ouが第2閾値r_th2より小さい、又は、等しい場合(ステップS43:No)、第2話速比r_ouが1の近似値か否かを判定する(ステップS46)。このとき速度調整量算出部173は、(条件式2)を用いて、第2話速比r_ouが1の近似値か否かを判定する。
1−e < r_ou < 1+e ・・・ (条件式2)
式中のeは、第2話速比r_ouが1の近似値かを判定する基準の数値範囲として予め設定できる(判定基準の数値範囲として事前に与えることができる)。よって、(条件式2)では、式中のeに1より小さい値を設定することで、第2話速比r_ouが、±eの数値範囲内で1の近似値の場合に条件を満たすように調整できる。本実施形態では、便宜上、eを0.2とする。よって、本実施形態では、第2話速比r_ouが、0.8より大きく、かつ、1.2より小さい値の場合に(条件式2)を満たすことになる。
速度調整量算出部173は、第2話速比r_ouが1の近似値の場合(ステップS46:Yes)、第3話速比r_uaと閾値(以下「第3閾値」という)r_th3とを比較し、第3話速比r_uaが第3閾値r_th3より大きいか否かを判定する(ステップS47)。なお、第3閾値r_th3は、ユーザ話速V_uが音声認識話速V_aよりも十分大きいかを判定する基準として予め設定できる(判定基準として事前に与えることができる)。本実施形態では、便宜上、第3閾値r_th3を1.4とする。
その結果、速度調整量算出部173は、第3話速比r_uaが第3閾値r_th3より大きい場合(ステップS47:Yes)、再発話時のオリジナル音声の再生速度Vの調整量aを算出する(ステップS48)。このとき速度調整量算出部173は、(式8)を用いて、再生速度Vの調整量aを算出する。
a = V_a /V_u ・・・ (式8)
また、速度調整量算出部173は、第3話速比r_uaが1の近似値でない場合(ステップS44:No)、再発話時のオリジナル音声の再生速度Vの調整量aを1.0に設定する(ステップS49)。同様に、速度調整量算出部173は、第2話速比r_ouが1の近似値でない場合(ステップS46:No)、第3話速比r_uaが第3閾値r_th3より小さい、又は、等しい場合(ステップS47:No)、調整量aを1.0に設定する。
これにより、再生速度決定部17は、速度調整量算出部173で求めた(又は設定された)調整量aから、再発話時のオリジナル音声の再生速度を決定する(ステップS50)。このとき再生速度決定部17は、連続モード時と同様に、オリジナル音声の1[秒]あたりの現在のデータサンプリング数に調整量aを乗算し、乗算値を調整後のデータサンプリング数とすることで、再生速度Vを決定する。
これを受けて再生制御部14は、再生速度決定部17により決定された再生速度Vで、オリジナル音声を再生する。このようにして、本実施形態に係る書き起こし支援装置100では、断続モードにおける再発話時のオリジナル音声の再生速度Vが調整される。
以下に、具体的な値を用いて上記処理例を説明する。本実施形態では、オリジナル話速の推定値V_oが18.0、ステップS41の算出処理では、第2話速比r_ouが1.565と算出される。また、本実施形態では、ユーザ話速の推定値V_uが11.5、音声認識話速の設定値V_aが10.0であることから、ステップS42の算出処理では、第3話速比r_uaは1.15と算出される。よって、ステップS43の判定処理では、第2話速比r_ouが第2閾値r_th2より大きい(1.565>1.4)と判定され、ステップS44の判定処理では、第3話速比r_uaが1の近似値である(0.8<1.15<1.2)と判定される。その結果、処理は、ステップS45の設定処理に進み、再生速度Vの調整量aが1.5に設定される。これにより、本実施形態では、再発話時のオリジナル音声が現在より1.5倍速い速度で再生される。
また、例えばオリジナル話速の推定値V_oが15.0であった場合には、ステップS41の算出処理では、ユーザ話速の推定値V_uが11.5であることから、第2話速比r_ouが1.304と算出される。よって、ステップS43の判定処理では、第2話速比r_ouが第2閾値r_th2より小さい(1.304<1.4)と判定される。これを受けて、処理は、ステップS46の判定処理に進み、第2話速比r_ouが1の近似値でない(1.304>1.2)と判定され、ステップS47の判定処理では、第3話速比r_uaが第3閾値r_th3より大きい(1.565>1.4)と判定される。その結果、処理は、ステップS48の設定処理に進み、ユーザ話速の推定値V_uが11.5、音声認識話速の設定値V_aが10.0であることから、再生速度Vの調整量aが0.87と算出される。この場合、再発話時のオリジナル音声が現在より13[%]遅い速度で再生される。
これに対して、例えば第3話速比r_ua又は第2話速比r_ouが1の近似値でない場合、処理は、ステップS49の設定処理に進み、再生速度Vの調整量aが1.0に設定される。第3話速比r_uaが第3閾値r_th3より小さい、又は、等しい場合も同様である。この場合、再発話時のオリジナル音声が現在と同じ速度で再生される。
ユーザUが、断続モードで再生を行う場合、オリジナル音声を一定期間聞いた後に、再生を停止した状態で再発話を行う。このとき作業習熟度の高いユーザUは、オリジナル音声の話速につられることなく、ユーザ音声の音声認識に好適な話速で再発話できる。このことから、書き起こし作業を効率よく行うために、オリジナル音声の再生速度Vを速めることが好ましい。
そこで、本実施形態では、図11の処理P2に示すように、速度調整量算出部173が、第2話速比r_ouと第2閾値r_th2とを比較し、ユーザ話速V_uがオリジナル話速V_oより遅い話速か否かを、比較結果から判定する。また、速度調整量算出部173が、第3話速r_uaが1の近似値か否かを判定する。つまり、速度調整量算出部173は、オリジナル話速V_oとユーザ話速V_uとを比較して、ユーザ話速V_uがオリジナル話速V_oよりも遅いかを確認する。さらに、速度調整量算出部173は、ユーザ話速V_uがオリジナル話速V_oよりも遅い場合、ユーザ話速V_uと音声認識話速V_aとを比較して、ユーザ話速V_uと音声認識話速V_aとが近似した話速かを確認する。その結果、速度調整量算出部173は、ユーザ話速V_uが、オリジナル話速V_oより遅く、音声認識話速V_aと近似した話速である場合、ユーザUが、オリジナル音声の話速に関わらず、音声認識に好適な話速で安定した再発話を行える作業習熟度の高いユーザUであると判断する。これを受けて速度決定部17は、現在の再生速度よりも速い速度でオリジナル音声を再生する再生速度Vを決定する。
これにより、本実施形態に係る書き起こし支援装置100では、書き起こし作業を効率よく行うための話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置100では、書き起こし作業の効率化を図ることができ、作業習熟度の高いユーザUの書き起こし作業にかかる負担を軽減できる(書き起こし作業にかかるコストを低減できる)。本実施形態に係る書き起こし支援システム1000は、エキスパート向けの支援サービスを提供できる。
一方、作業習熟度の低いユーザUは、直前に聞いたオリジナル音声の話速につられて再発話することが考えられる。そのため、オリジナル話速V_oが、音声認識話速V_aに比べて速い場合には、ユーザUが、オリジナル音声と同じ話速で再発話してしまうことで、再発話を録音したユーザ音声の音声認識の精度が低下する可能性がある。
そこで、本実施形態では、図11の処理P3に示すように、速度調整量算出部173が、第2話速r_ouが1の近似値か否かを判定する。また、速度調整量算出部173が、第3話速比r_uaと第3閾値r_th3とを比較し、ユーザ話速V_uが音声認識話速V_aより速い話速か否かを、比較結果から判定する。つまり、速度調整量算出部173は、オリジナル話速V_oとユーザ話速V_uとを比較して、ユーザ話速V_uとオリジナル話速V_oとが近似した話速かを確認する。さらに、速度調整量算出部173は、ユーザ話速V_uとオリジナル話速V_oとが近似した話速の場合、ユーザ話速V_uと音声認識話速V_aとを比較して、ユーザ話速V_uが音声認識話速V_aに比べて速いかを確認する。その結果、速度調整量算出部173は、ユーザ話速V_uが、オリジナル話速V_oと近似した話速で、音声認識話速V_aに比べて速い場合、ユーザUが、オリジナル音声の話速につられて、音声認識の精度を低下させる可能性のある話速で再発話を行う作業習熟度の低いユーザUであると判断する。これを受けて速度決定部17は、現在の再生速度よりも遅い速度でオリジナル音声を再生する再生速度Vを決定する。
これにより、本実施形態に係る書き起こし支援装置100では、ユーザUが、音声認識に好適な話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置100では、再発話を録音したユーザ音声を精度よく認識でき、作業習熟度の低いユーザUの書き起こし作業にかかる負担を軽減できる(書き起こし作業にかかるコストを低減できる)。本実施形態に係る書き起こし支援システム1000は、ビギナー向けの支援サービスを提供できる。
<まとめ>
以上のように、本実施形態に係る書き起こし支援装置100によれば、ユーザUからの操作指示を受け付けて、オリジナル音声を再生又は停止する。このとき書き起こし支援装置100は、オリジナル音声の再生開始時刻と再生停止時刻とが記録された再生情報を得る。本実施形態に係る書き起こし支援装置100は、オリジナル音声を聞いた後に、ユーザUにより同じ内容が再発話され入力されたユーザ音声を認識し、音声認識結果としてテキストT(認識文字列)を得る。本実施形態に係る書き起こし支援装置100は、テキストTを画面に表示し、ユーザUからの編集入力を受け付けて、編集中のテキストT2を得る。本実施形態に係る書き起こし支援装置100は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストT2と、オリジナル音声の再生情報とに基づき、ユーザUの作業習熟度を判定し、再発話時のオリジナル音声の再生速度Vを決定する。本実施形態に係る書き起こし支援装置100は、再発話時に再生されるオリジナル音声を、決定した再生速度Vで再生する。
これによって、本実施形態に係る書き起こし支援装置100は、再発話時のオリジナル音声の再生速度Vを、ユーザUごとの適正速度に調整可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置100は、再発話によるテキスト書き起こし作業を、ユーザUの作業習熟度に応じて作業支援できる。また、本実施形態に係る書き起こし支援装置100は、再発話時のオリジナル音声の再生速度Vを、再生・停止が行われるたびに調整可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置100は、ユーザUの作業習熟度に応じた作業支援を迅速に行うことができる。これにより、本実施形態に係る書き起こし支援装置100は、利便性の向上を図ることができる(利便性の高い支援サービスを実現できる)。
<本実施形態の効果の詳細>
以下に、従来の技術、および、本実施形態の効果についてさらに説明する。書き起こし作業では、一般的に、書き起こす速度がオリジナル音声の再生速度より遅い。そのため、書き起こし作業には、コスト(時間的・経済的なコスト)がかかる。そのため、音声認識を用いた書き起こし作業を支援する技術が提案されている。しかし、オリジナル音声には、録音環境により雑音が混入していることが多く、精度のよい音声認識結果が得られない。そこで、オリジナル音声を聞いた後に同じ内容が再発話され入力されたユーザ音声を認識することで、精度のよい音声認識を実現し、書き起こし作業を支援するシステムが提案されている。
しかし、このような従来のシステムでは、再発話時にオリジナル音声を再生する適正速度について、次のような問題がある。例えばオリジナル音声を一定時間聞いた後に再発話する利用場面を想定する。このとき作業習熟度の低いユーザは、オリジナル音声が早口の場合、再発話も早口になる傾向がある。そのため、ユーザの作業習熟度が低い場合には、再発話を録音したユーザ音声の音声認識の精度が低下する。よって、作業習熟度の低いユーザに対しては、再発話時のオリジナル音声の再生速度を遅くすることが望ましい。一方、作業習熟度の高いユーザは、オリジナル音声の再生速度につられることなく、安定した再発話ができる。そのため、ユーザの作業習熟度が高い場合には、速い話速でオリジナル音声を聞き、再発話を行いたい。よって、作業習熟度の高いユーザに対しては、再発話時のオリジナル音声の再生速度を速くすることが望ましい。このように、再発話時にオリジナル音声を再生する適正速度は、ユーザの作業習熟度によって異なる。これに対して従来のシステムは、ユーザの作業習熟度に応じて、再発話時のオリジナル音声の再生速度を適正速度に調整するものではない。つまり、従来のシステムは、再発話によるテキスト書き起こし作業を、ユーザごとに支援するものではない。そのため、従来のシステムを用いた支援サービスは、ユーザにとって利便性のよいものではない。
そこで、本実施形態に係る書き起こし支援装置は、書き起こし対象のオリジナル音声と、再発話を録音したユーザ音声と、認識文字列(第1テキスト)を編集したテキスト(第2テキスト)と、オリジナル音声の再生情報とに基づき、ユーザの作業習熟度を判定する。本実施形態に係る書き起こし支援装置は、ユーザの作業習熟度の判定結果から、再発話時のオリジナル音声の再生速度を決定する。つまり、本実施形態に係る書き起こし支援装置は、再発話時のオリジナル音声の再生速度を、ユーザの作業習熟度に応じて決定する仕組みとした。
その結果、本実施形態に係る書き起こし支援装置は、再発話時のオリジナル音声の再生速度を、ユーザごとの適正速度に調整できる。これにより、本実施形態に係る書き起こし支援装置は、再発話によるテキスト書き起こし作業を、ユーザの作業習熟度に応じて作業支援できることから、利便性の向上を図ることができる(利便性の高い支援サービスを実現できる)。
<装置>
図12は、上記実施形態に係る書き起こし支援装置100の構成例を示す図である。図12に示すように、実施形態に係る書き起こし支援装置100は、CPU(Central Processing Unit)101と、主記憶装置102とを含む。また、書き起こし支援装置100は、補助記憶装置103と、通信IF(interface)104と、外部IF105と、ドライブ装置107とを含む。書き起こし支援装置100は、各デバイスがバスBを介して相互に接続される。このように、実施形態に係る書き起こし支援装置100は、一般的な情報処理装置に相当する。
CPU101は、装置全体の制御や搭載機能を実現するための演算装置である。主記憶装置102は、プログラムやデータなどを所定の記憶領域に保持する記憶装置(メモリ)である。主記憶装置102は、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)などである。また、補助記憶装置103は、主記憶装置102より容量の大きい記憶領域を備える記憶装置である。補助記憶装置103は、例えば、HDD(Hard Disk Drive)やメモリカード(Memory Card)などの不揮発性の記憶装置である。よって、CPU101は、例えば、補助記憶装置103から主記憶装置102上に、プログラムやデータを読み出し、処理を実行することで、装置全体の制御や搭載機能を実現する。
通信IF104は、装置をデータ伝送路Nに接続するインタフェースである。これにより、書き起こし支援装置100は、データ伝送路Nを介して接続される他の外部機器(ユーザ端末200などの他の情報処理装置)とデータ通信が行える。外部IF105は、装置と外部装置106との間でデータを送受信するためのインタフェースである。外部装置106には、例えば処理結果などの各種情報を表示する表示装置(例えば「液晶ディスプレイ」)や操作入力を受け付ける入力装置(例えば「テンキー」、「キーボード」、又は「タッチパネル」)などがある。ドライブ装置107は、記憶媒体108の書き込み又は読み取りを行う制御装置である。記憶媒体108は、例えばフレキシブルディスク(FD)、CD(Compact Disk)、及びDVD(Digital Versatile Disk)などである。
また、上記実施形態に係る書き起こし支援機能は、例えば書き起こし支援装置100において、プログラムを実行することで、上記各機能部が連携動作することで実現される。この場合、プログラムは、実行環境の装置(コンピュータ)が読み取り可能な記憶媒体に、インストール可能な形式又は実行可能な形式のファイルで記録され提供される。例えば書き起こし支援装置100の場合には、プログラムは、上記各機能部を含むモジュール構成となっており、CPU101が記憶媒体108からプログラムを読み出し実行することで、主記憶装置102のRAM上に各機能部が生成される。なお、プログラムの提供方法は、この限りでない。例えばプログラムを、インターネットなどに接続された外部機器に格納し、データ伝送路N経由でダウンロードする方法であってもよい。また、主記憶装置102のROMや補助記憶装置103のHDDなどに予め組み込んで提供する方法であってもよい。なお、ここでは、書き起こし支援機能をソフトウェアの実装により実現する例を説明したが、この限りでない。例えば書き起こし支援機能が有する各機能部の一部又は全部を、ハードウェアの実装により実現してもよい。
また、上記実施形態では、書き起こし支援装置100が、オリジナル音声取得部11と、ユーザ音声取得部12と、ユーザ音声認識部13と、再生制御部14と、テキスト取得部15と、再生情報取得部16と、再生速度決定部17とを有する構成について説明を行ったが、この限りでない。例えば、書き起こし支援装置100が、これらの機能部の一部の機能を有する外部機器と、通信IF104を介して接続され、接続された外部機器とデータ通信を行い、各機能部を連携動作させることで、上記書き起こし支援機能を提供する構成であってもよい。具体的には、書き起こし支援装置100が、ユーザ音声取得部12及びユーザ音声認識部13を有する外部機器とデータ通信を行い、各機能部を連携動作させることで、上記書き起こし支援機能を提供する。これにより、上記実施形態に係る書き起こし支援装置100は、クラウド環境などにも適用できる。
最後に、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
11 オリジナル音声取得部
12 ユーザ音声取得部
13 ユーザ音声認識部
14 再生制御部
15 テキスト取得部
16 再生情報取得部
17 再生速度決定部
171 ユーザ話速推定部
172 オリジナル話速推定部
173 速度調整量算出部
21 音声入力部
22 テキスト処理部
23 再生UI部
24 再生部
100 書き起こし支援装置
1000 書き起こし支援システム

Claims (12)

  1. 再生される第1音声を取得する第1音声取得部と、
    ユーザが発話した第2音声を取得する第2音声取得部と、
    前記第2音声を認識して第1テキストを生成する認識部と、
    前記第1テキストがユーザにより修正された第2テキストを取得するテキスト取得部と、
    前記第1音声の再生区間を表す再生情報を取得する情報取得部と、
    前記第1音声と、前記第2音声と、前記第2テキストと、前記再生情報とに基づき、前記第1音声の再生速度を決定する決定部と、
    前記第1音声を、決定した前記再生速度で再生する制御部と、
    を備える書き起こし支援装置。
  2. 前記決定部は、
    前記第1音声と、前記第2テキストと、前記再生情報とに基づき、再生される前記第1音声の話速に相当する第1話速の推定値を算出する第1話速推定部と、
    前記第2音声と前記第2テキストとに基づき、前記第2音声の話速に相当する第2話速の推定値を算出する第2話速推定部と、
    前記第1話速の推定値と前記第2話速の推定値とに基づき、前記第1音声の前記再生速度を決定するための調整量を算出する調整量算出部と、を備え、
    前記第1音声の単位時間あたりのデータサンプリング数に前記調整量を乗算し、乗算値を調整後のデータサンプリング数とすることで、前記再生速度を決定する、
    請求項1に記載の書き起こし支援装置。
  3. 前記第1話速推定部は、
    前記再生情報に基づき、前記第2テキストに対応する音声を前記第1音声から取得し、
    前記第2テキストを発音単位で変換した音素列と取得した前記音声との対応関係をとることで、取得した前記音声においてユーザが発話した第1発話区間を特定し、
    前記音素列の長さと前記第1発話区間の長さから、前記第1話速の推定値を算出する、
    請求項2に記載の書き起こし支援装置。
  4. 前記第2話速推定部は、
    前記第2テキストを発音単位で変換した音素列と前記第2音声との対応関係をとることで、前記第2音声においてユーザが発話した第2発話区間を特定し、
    前記音素列の長さと前記第2発話区間の長さから、前記第2話速の推定値を算出する、
    請求項2に記載の書き起こし支援装置。
  5. 前記調整量算出部は、
    前記第1音声の再生方法が、連続再生であった場合、
    前記第2音声を音声認識するために設定された音声認識話速の値と前記第1話速の推定値とに基づき、前記調整量を算出し、
    前記第1音声の再生方法が、再生と停止を繰り返す断続再生であった場合、
    前記音声認識話速の設定値と、前記第1話速の推定値と、前記第2話速の推定値とに基づき、前記調整量を算出する、
    請求項2に記載の書き起こし支援装置。
  6. 前記調整量算出部は、
    前記連続再生時に、
    前記第1話速の推定値と前記音声認識話速の設定値との第1話速比を算出し、
    前記第1話速比が第1閾値より大きい場合、
    前記音声認識話速の設定値を前記第1話速の推定値で除算し、除算値を前記調整量として算出する、
    請求項5に記載の書き起こし支援装置。
  7. 前記調整量算出部は、
    前記連続再生時に、
    前記第1話速の推定値と前記音声認識話速の設定値との第1話速比を算出し、
    前記第1話速比が第1閾値より小さい又は等しい場合、
    前記調整量に1を設定する、
    請求項5に記載の書き起こし支援装置。
  8. 前記調整量算出部は、
    前記断続再生時に、
    前記第1話速の推定値と前記第2話速の推定値との第2話速比及び前記第2話速の推定値と前記音声認識話速の設定値との第3話速比を算出し、
    前記第2話速比が第2閾値より大きく、かつ、前記第3話速比が1の近似値である場合、
    前記調整量に1より大きい所定値を設定する、
    請求項5に記載の書き起こし支援装置。
  9. 前記調整量算出部は、
    前記断続再生時に、
    前記第1話速の推定値と前記第2話速の推定値との第2話速比及び前記第2話速の推定値と前記音声認識話速の設定値との第3話速比を算出し、
    前記第2話速比が第2閾値より小さい又は等しい、かつ、前記第2話速比が1の近似値、かつ、前記第3話速比が第3閾値より大きい場合、
    前記音声認識話速の設定値を前記第1話速の推定値で除算し、除算値を前記調整量として算出する、
    請求項5に記載の書き起こし支援装置。
  10. 前記調整量算出部は、
    前記断続再生時に、
    前記第1話速の推定値と前記第2話速の推定値との第2話速比及び前記第2話速の推定値と前記音声認識話速の設定値との第3話速比を算出し、
    前記第3話速比が1の近似値でない場合、前記第2話速比が1の近似値でない場合、前記第3話速比が第3閾値より小さい又は等しい場合のいずれかの条件を満たす場合、
    前記調整量に1を設定する、
    請求項5に記載の書き起こし支援装置。
  11. 再生される第1音声を取得し、
    ユーザが発話した第2音声を取得し、
    前記第2音声を認識して第1テキストを生成し、
    前記第1テキストがユーザにより修正された第2テキストを取得し、
    前記第1音声の再生区間を表す再生情報を取得し、
    前記第1音声と、前記第2音声と、前記第2テキストと、前記再生情報とに基づき、前記第1音声の再生速度を決定し、
    前記第1音声を、決定した前記再生速度で再生する、
    書き起こし支援方法。
  12. コンピュータを、
    再生される第1音声を取得する手段と、
    ユーザが発話した第2音声を取得する手段と、
    前記第2音声を認識して第1テキストを生成する手段と、
    前記第1テキストがユーザにより修正された第2テキストを取得する手段と、
    前記第1音声の再生区間を表す再生情報を取得する手段と、
    前記第1音声と、前記第2音声と、前記第2テキストと、前記再生情報とに基づき、前記第1音声の再生速度を決定する手段と、
    前記第1音声を、決定した前記再生速度で再生する手段と、
    して機能させる書き起こし支援プログラム。
JP2013124196A 2013-06-12 2013-06-12 書き起こし支援装置、方法、及びプログラム Pending JP2014240940A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013124196A JP2014240940A (ja) 2013-06-12 2013-06-12 書き起こし支援装置、方法、及びプログラム
US14/197,694 US20140372117A1 (en) 2013-06-12 2014-03-05 Transcription support device, method, and computer program product
CN201410089873.4A CN104240718A (zh) 2013-06-12 2014-03-12 转录支持设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013124196A JP2014240940A (ja) 2013-06-12 2013-06-12 書き起こし支援装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014240940A true JP2014240940A (ja) 2014-12-25

Family

ID=52019973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013124196A Pending JP2014240940A (ja) 2013-06-12 2013-06-12 書き起こし支援装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US20140372117A1 (ja)
JP (1) JP2014240940A (ja)
CN (1) CN104240718A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017161726A (ja) * 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
JP5943436B2 (ja) * 2014-06-30 2016-07-05 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
CN107527623B (zh) * 2017-08-07 2021-02-09 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN110875056B (zh) * 2018-08-30 2024-04-02 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN111798868B (zh) * 2020-09-07 2020-12-08 北京世纪好未来教育科技有限公司 语音强制对齐模型评价方法、装置、电子设备及存储介质
CN112750436B (zh) * 2020-12-29 2022-12-30 上海掌门科技有限公司 一种用于确定语音消息的目标播放速度的方法与设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JP4304762B2 (ja) * 1999-05-28 2009-07-29 ソニー株式会社 ダビング装置及びダビング方法
JP4304796B2 (ja) * 1999-11-30 2009-07-29 ソニー株式会社 ダビング装置
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
CN1312657C (zh) * 2001-10-12 2007-04-25 皇家飞利浦电子股份有限公司 用于标注所识别文本的部分的转录设备和方法
JP2006507530A (ja) * 2002-11-22 2006-03-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識装置及び方法
US20060149535A1 (en) * 2004-12-30 2006-07-06 Lg Electronics Inc. Method for controlling speed of audio signals
US8756057B2 (en) * 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US20130035936A1 (en) * 2011-08-02 2013-02-07 Nexidia Inc. Language transcription
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017161726A (ja) * 2016-03-09 2017-09-14 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01
JP7416078B2 (ja) 2019-09-27 2024-01-17 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
US20140372117A1 (en) 2014-12-18
CN104240718A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US10249321B2 (en) Sound rate modification
JP6078964B2 (ja) 音声対話システム及びプログラム
WO2020098115A1 (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
WO2017006766A1 (ja) 音声対話方法および音声対話装置
KR20080061747A (ko) 오디오 배속 재생 방법 및 장치
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JPWO2019031268A1 (ja) 情報処理装置、及び情報処理方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
US20210193147A1 (en) Automated generation of transcripts through independent transcription
JP2014134640A (ja) 文字起こし装置およびプログラム
JP5818753B2 (ja) 音声対話システム及び音声対話方法
WO2021059968A1 (ja) 音声認識装置、音声認識方法、およびプログラム
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR101501705B1 (ko) 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체
JP6723033B2 (ja) 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
JP7288530B1 (ja) システムおよびプログラム
JP6143824B2 (ja) 音声対話支援装置、方法、およびプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102