JP6394332B2 - Information processing apparatus, transcription support method, and transcription support program - Google Patents
Information processing apparatus, transcription support method, and transcription support program Download PDFInfo
- Publication number
- JP6394332B2 JP6394332B2 JP2014244161A JP2014244161A JP6394332B2 JP 6394332 B2 JP6394332 B2 JP 6394332B2 JP 2014244161 A JP2014244161 A JP 2014244161A JP 2014244161 A JP2014244161 A JP 2014244161A JP 6394332 B2 JP6394332 B2 JP 6394332B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- transcription
- recognition
- dictionary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013518 transcription Methods 0.000 title claims description 166
- 230000035897 transcription Effects 0.000 title claims description 166
- 238000000034 method Methods 0.000 title claims description 89
- 230000010365 information processing Effects 0.000 title claims description 40
- 240000000220 Panda oleosa Species 0.000 claims description 112
- 235000016496 Panda oleosa Nutrition 0.000 claims description 112
- 238000012545 processing Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 36
- 238000012790 confirmation Methods 0.000 claims description 17
- 238000013500 data storage Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 11
- 238000004891 communication Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 11
- 241001417093 Moridae Species 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000002035 prolonged effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 241000019114 Amata Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、情報処理装置、書き起こし支援方法、及び書き起こし支援プログラムに関する。 The present invention relates to an information processing apparatus, a transcription support method, and a transcription support program.
録音した音声データをテキスト化する書き起こし作業において、音声の書き起こしは、手動が主流であり、音声認識技術等を用いて自動書き起こしを行った場合でも、認識精度が不十分であるため、手動書き起こしによる修正が必要となる。手動による書き起こしの場合には、何回か聴き直す必要があり、そのための頭出し再生操作も繰り返すことになるため、書き起こし効率が低下する。したがって、頭出し再生を自動化し、書き起こし効率を改善する技術が求められている。 In the transcription work to convert the recorded voice data into text, the transcription of voice is mainly manual, and even if automatic transcription is performed using voice recognition technology etc., the recognition accuracy is insufficient, Correction by manual transcription is required. In the case of manual transcription, it is necessary to listen again several times, and the cueing reproduction operation for that purpose is repeated, so that the transcription efficiency decreases. Therefore, there is a need for a technique for automating cue reproduction and improving transcription efficiency.
例えば、音声データの音声認識結果から形態素単位の音声位置情報をリスト化し、手動で書き起こしたテキストと、上述したリストとを比較して一致する位置を基準に音声データの頭出し位置を特定する手法がある。 For example, the speech position information in units of morphemes is listed from the speech recognition result of the speech data, and the cueing position of the speech data is specified based on the matching position by comparing the manually written text with the above-described list. There is a technique.
しかしながら、録音した音声データに対する音声認識結果に誤認識が多いと、比較対象のテキストと一致せず、頭出し位置を特定できない。 However, if there are many misrecognitions in the voice recognition result for the recorded voice data, the text does not match the comparison target text and the cue position cannot be specified.
一つの側面では、本発明は、頭出し再生位置を適切に特定でき、文書書き起こし効率を高めることを目的とする。 In one aspect, an object of the present invention is to appropriately specify a cueing reproduction position and improve document transcription efficiency.
一つの態様では、情報処理装置は、音声データを格納する音声データ格納部と、頭出し再生位置から前記音声データを再生する音声再生部と、音声再生部により再生された前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成するテキスト生成部と、前記テキスト生成部から得られる書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成する辞書生成部と、前記辞書生成部により得られる前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出する位置情報抽出部と、前記位置情報抽出部により抽出した位置情報から、前記頭出し再生位置を決定する再生位置決定部とを有する。 In one aspect, the information processing apparatus corresponds to the audio data storage unit that stores the audio data, the audio reproduction unit that reproduces the audio data from the cue reproduction position, and the audio data that is reproduced by the audio reproduction unit. A text generation unit that generates a transcription unit kana text from the input kana text, and a dynamic recognition dictionary based on one or more recognition vocabularies from the transcription unit kana text obtained from the text generation unit. A dictionary generation unit to generate, a position information extraction unit to extract position information of the voice data corresponding to the recognition vocabulary by voice recognition using the dynamic recognition dictionary obtained by the dictionary generation unit, and the position information A reproduction position determination unit that determines the cue reproduction position from the position information extracted by the extraction unit.
一つの側面として、本発明は、頭出し再生位置を適切に特定でき、文書書き起こし効率を高めることができる。 As one aspect, the present invention can appropriately specify a cueing reproduction position, and can improve document transcription efficiency.
以下、図面に基づいて実施形態を説明する。 Embodiments will be described below with reference to the drawings.
<第1実施形態>
図1は、第1実施形態における情報処理装置の機能構成例を示す図である。図1に示す情報処理装置10は、記憶部11と、音声再生部12と、入力部13と、テキスト生成部14と、辞書生成部15と、位置情報抽出部16と、再生位置決定部17とを有する。
<First Embodiment>
FIG. 1 is a diagram illustrating a functional configuration example of the information processing apparatus according to the first embodiment. An
記憶部11は、書き起こし支援処理を行う際に必要となる各種情報や、処理結果等を記憶する。記憶部11は、例えば音声データ格納部11aを有する。音声データ格納部11aは、書き起こしテキスト等を生成する対象となる音声データを格納する。音声データは、例えばインタビュー、会話、会議、講演、演説、スピーチ等の人が発した音声等を録音したものであるが、これに限定されるものではない。
The
音声再生部12は、音声データ格納部11aに格納された音声データを再生する。音声再生部12は、通常速度で音声データを再生させてもよく、低速モードや高速モードで音声データを再生させてもよい。再生速度については、ユーザの指定により再生前又は再生時に変更することができる。
The
入力部13は、音声再生部12により再生された音声データを聴き取ったユーザ等からの書き起こしテキスト等の入力を受け付ける。また、入力部13は、情報処理装置10に対するユーザからの設定処理や、書き起こし処理の開始、終了処理等の指示等の入力を受け付ける。入力部13は、例えばキーボード等であるが、これに限定されるものではなく、画面上に表示されるタッチパネル等の操作ボタン等でもよい。
The
テキスト生成部14は、入力部13から得られる情報に対して、書き起こし単位の仮名テキストを生成する。書き起こし単位の仮名テキストとは、例えば録音した音声データの再生後にユーザの手動書き起こしにより入力部13から入力されたテキスト情報で、例えば1又は複数の認識語彙からなる。また、仮名テキストとは、漢字等に変換されていないカタカナ、ひらがな等で表現されるテキスト情報である。
The
辞書生成部15は、テキスト生成部14で生成される1つ以上の書き起こし単位の仮名テキストから、1つ以上の認識語彙を持った動的認識辞書を生成する。なお、辞書生成部15は、予め設定された長母音化ルールにより長母音化処理を行い、処理された語彙(長音化仮名テキスト)も含めて動的認識辞書に登録してもよい。生成された動的認識辞書は、例えば記憶部11等に記憶されてもよい。
The
位置情報抽出部16は、辞書生成部15により生成された動的認識辞書を用いた音声認識処理を行う。また、位置情報抽出部16は、音声データと音声認識結果から認識語彙に対応する音声データの位置情報を抽出する。音声認識処理では、動的認識辞書を用いて、1認識語彙の音声認識を行う。また、音声認識処理は、例えば音声データを一字一句認識していくディクテーションではなく、認識語彙単位のワードスポッティングを行うのが好ましい。ワードスポッティングは、例えば動的認識辞書内にある語彙を音声データから拾い出してくる手法であり、動的認識辞書にない余計な語彙を認識しないため、誤認識を抑制することができる。また、音声認識処理には、例えば音響的特徴量等を用いることもできるが、これに限定されるものではない。
The position
再生位置決定部17は、位置情報抽出部16により抽出した位置情報から、音声データの頭出し再生位置を決定する。頭出し再生位置は、確定した仮名テキストの先頭でもよく、終端でもよいが、これに限定されるものではなく、仮名テキストに含まれるモーラの中間でもよい。
The reproduction
情報処理装置10は、Personal Computer(PC)やサーバ、スマートフォン、タブレット端末等であるが、これに限定されるものではない。
The
第1実施形態では、上述した構成により、例えば確定した仮名テキストに続く録音音声の再生位置や、確認のために聴き直しを行う録音音声の再生位置等を適切に特定でき、文書の書き起こし効率を高めることができる。例えば、手動書き起こし、又は自動書き起こしの手動修正における、聴き直しの繰り返しにおいて、正しい位置からの頭出し再生が可能となり、書き起こし効率が向上する。 In the first embodiment, with the above-described configuration, for example, the playback position of the recorded voice following the confirmed kana text, the playback position of the recorded voice that is re-listen for confirmation, and the like can be appropriately specified, and the transcription efficiency of the document Can be increased. For example, in repeated re-listening in manual transcription or manual correction of automatic transcription, cue reproduction from the correct position becomes possible, and transcription efficiency is improved.
<ハードウェア構成例>
次に、情報処理装置10等のコンピュータのハードウェア構成例について、図を用いて説明する。図2は、ハードウェア構成の一例を示す図である。図2の例において、情報処理装置10は、入力装置21と、出力装置22と、ドライブ装置23と、補助記憶装置24と、主記憶装置25と、Central Processing Unit(CPU)26と、ネットワーク接続装置27とを有し、これらはシステムバスBで相互に接続されている。
<Hardware configuration example>
Next, a hardware configuration example of a computer such as the
入力装置21は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスやマイクロフォン等の音声入力デバイスを有しており、ユーザ等からのプログラムの実行指示、各種操作情報、ソフトウェア等を起動するための情報等の入力を受け付ける。
The
出力装置22は、本実施形態における処理を行うためのコンピュータ本体(情報処理装置10)を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイ等を有する。出力装置22は、CPU26が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。
The output device 22 includes a display for displaying various windows, data, and the like necessary for operating the computer main body (information processing device 10) for performing the processing in the present embodiment. The output device 22 can display program execution progress, results, and the like by a control program of the
ここで、本実施形態において、例えば情報処理装置10等のコンピュータ本体にインストールされる実行プログラムは、記録媒体28等により提供される。記録媒体28は、ドライブ装置23にセット可能である。CPU26からの制御信号に基づき、記録媒体28に格納された実行プログラムが、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。
Here, in the present embodiment, for example, the execution program installed in the computer main body such as the
補助記憶装置24は、例えばHard Disk Drive(HDD)やSolid State Drive(SSD)等のストレージ手段等である。補助記憶装置24は、CPU26からの制御信号に基づき、本実施形態における実行プログラム(例えば、書き起こし支援プログラム)や、コンピュータに設けられた制御プログラム等を記憶し、必要に応じて入出力を行う。補助記憶装置24は、CPU26からの制御信号等に基づいて、記憶された各情報から必要な情報を読み出したり、書き込むことができる。
The
主記憶装置25は、CPU26により補助記憶装置24から読み出された実行プログラム等を格納する。主記憶装置25は、Read Only Memory(ROM)やRandom Access Memory(RAM)等である。
The
CPU26は、Operating System(OS)等の制御プログラム、及び主記憶装置25に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して各処理を実現する。プログラムの実行中に必要な各種情報等は、補助記憶装置24から取得することができ、また実行結果等を格納することもできる。
The
具体的には、CPU26は、例えば入力装置21から得られるプログラムの実行指示等に基づき、補助記憶装置24にインストールされたプログラムを実行させることにより、主記憶装置25上でプログラムに対応する処理を行う。
Specifically, the
例えば、CPU26は、書き起こし支援プログラムを実行させることで、上述した記憶部11による音声データ等の各種情報の格納や、音声再生部12による音声再生、入力部13による書き起こしテキストや実行指示等の入力、テキスト生成部14によるテキストの生成、辞書生成部15による辞書の生成、位置情報抽出部16による位置情報の抽出、再生位置決定部17による音声データの再生位置の決定等の処理を行う。CPU26における処理内容は、上述した内容に限定されるものではない。CPU26により実行された内容は、必要に応じて補助記憶装置24等に記憶される。
For example, the
ネットワーク接続装置27は、例えばインターネットやLocal Area Network(LAN)等の通信ネットワークを介して、他の外部装置との通信を行う。ネットワーク接続装置27は、CPU26からの制御信号に基づき、通信ネットワーク等と接続することにより、実行プログラムやソフトウェア、設定情報等を外部装置等から取得する。また、ネットワーク接続装置27は、プログラムを実行することで得られた実行結果を外部装置等に提供したり、本実施形態における実行プログラム自体を外部装置等に提供してもよい。
The
記録媒体28は、上述したように実行プログラム等が格納されたコンピュータで読み取り可能な記録媒体である。記録媒体28は、例えばフラッシュメモリ等の半導体メモリやCD−ROM、DVD等の可搬型の記録媒体であるが、これに限定されるものではない。
The
図2に示すハードウェア構成に実行プログラム(例えば、書き起こし支援プログラム等)をインストールすることで、ハードウェア資源とソフトウェアとが協働して本実施形態における書き起こ支援処理等を実現することができる。 By installing an execution program (for example, a transcription support program) in the hardware configuration shown in FIG. 2, the hardware resource and the software can cooperate to realize the transcription support process in the present embodiment. it can.
<書き起こし支援処理について>
次に、書き起こし支援処理についてフローチャートを用いて説明する。図3は、第1実施形態における書き起こし支援処理の一例を示すフローチャートである。図3の例において、情報処理装置10の入力部13は、例えば音声データ格納部11aに格納された文章書き起こし対象の音声データを再生し、再生した音声データに対するテキストの入力を受け付ける(S01)。次に、テキスト生成部14は、受け付けた情報から書き起こしテキストが仮名漢字変換前か否かを判断する(S02)。S02の処理では、例えば入力部13がキーボード等であれば、キーボードの変換ボタンやスペースキー等の所定のキーの押下の有無により判断することができるが、これに限定されるものではない。例えば、キーボードの変換ボタンやスペースキーが押下される前であれば、仮名漢字変換前と判断する。また、変換ボタンやスペースキーが押下された後であれば、仮名漢字変換後と判断する。また、例えば変換ボタンやスペースキーが押下された後の内容(例えば、文字コード等)等から、漢字が含まれているか否かを判断することで、仮名漢字変換前か否かを判断してもよい。
<Transcription support processing>
Next, the transcription support process will be described with reference to a flowchart. FIG. 3 is a flowchart showing an example of the transcription support process in the first embodiment. In the example of FIG. 3, the
S02の処理において、仮名漢字変換前である場合(S02において、YES)、仮名入力の書き起こしテキストを取得する(S03)。また、仮名漢字変換後である場合(S02において、NO)、変換された仮名漢字テキストを取得する(S04)。ここで、仮名漢字テキストとは、例えば手動により入力された書き起こしテキストを意味する。 In the process of S02, when it is before Kana-Kanji conversion (YES in S02), a transcription text of Kana input is acquired (S03). If it is after Kana-Kanji conversion (NO in S02), the converted Kana-Kanji text is acquired (S04). Here, the kana / kanji text means, for example, a transcription text manually input.
次に、テキスト生成部14は、仮名漢字テキストが確定したか否かを判断する(S05)。S05の処理では、仮名漢字テキストを取得済みであるかで確定の有無を判断し、取得済みであれば確定したと判断する。
Next, the
S05の処理において、仮名漢字テキストが確定していない場合(S05において、NO)、S01の処理に戻る。また、S05の処理において、仮名漢字テキストが確定した場合(S05において、YES)、テキスト生成部14は、書き起こし単位(確定単位)で取得した仮名テキストを生成する(S06)。
If the kana / kanji text is not confirmed in the process of S05 (NO in S05), the process returns to the process of S01. In the process of S05, when the kana-kanji text is confirmed (YES in S05), the
次に、テキスト生成部14は、連続して生成される複数の仮名テキストを結合する(S07)。S07の処理では、例えば、書き起こし単位の仮名テキストが所定モーラ数以下の場合、過去の書き起こし単位の仮名テキストと結合する。また、S07の処理では、書き起こし単位の仮名テキストが所定モーラ数以下の場合、所定モーラ数となるように過去の書き起こし単位の仮名テキストと結合してもよい。また、また、S07の処理では、随時、書き起こし単位の仮名テキストを連結してもよい。
Next, the
次に、辞書生成部15は、S07の処理で得られた仮名テキストを1認識語彙として動的認識辞書を生成する(S08)。なお、動的認識辞書は、例えば1認識語彙を単位とすることで認識処理の高速化と高精度化を実現することができる。また、S08の処理で得られた動的認識辞書は、記憶部11に記憶されてもよい。
Next, the
次に、位置情報抽出部16は、S08の処理で得られた動的認識辞書を用いて、1認識語彙の音声認識(ワードスポッティング)を行う(S09)。S09の処理では、一字一句認識していくディクテーションでなく、認識語彙単位のワードスポッティングを行うことで、誤認識を抑制することができる。
Next, the position
次に、位置情報抽出部16は、S09の処理による認識結果から、ワードスポッティングの先頭モーラ先頭、中間モーラ先頭、終端モーラ終端の少なくとも1以上を、音声データ位置情報として取得する(S10)。ここで、先頭モーラ先頭とは、例えば1認識語彙が「しゅど−そ−ちおよび」である場合における「し」の音声が出力される直前の位置情報である。また、中間モーラ先頭とは、例えば「しゅど−そ−ちおよび」の場合における「お」の音声が出力される直前の位置情報である。また、終端モーラ終端とは、例えば「しゅど−そ−ちおよび」の場合における「び」の音声が出力された直後の位置情報である。取得する位置情報は、予め設定されたモード等に基づいて選択的に取得してもよく、モードに関係かく全ての位置情報を取得してもよい。
Next, the position
次に、再生位置決定部17は、S10の処理で取得した音声データ位置情報を、頭出し再生位置として確定し(S11)、確定した頭出し再生位置から音声再生を開始する(S12)。
Next, the reproduction
ここで、処理を終了するか否かを判断し(S13)、処理を終了しない場合(S13において、NO)、S01の処理に戻る。また、ユーザからの終了操作や音声データが終了した場合等により処理を終了する場合(S13において、NO)、書き起こし支援処理を終了する。 Here, it is determined whether or not to end the process (S13). If the process is not ended (NO in S13), the process returns to S01. Further, when the process is terminated due to the termination operation from the user or when the voice data is terminated (NO in S13), the transcription support process is terminated.
上述したように、第1実施形態では、情報処理装置10が、書き起こし単位で仮名テキストを取得し、書き起こし単位以上の仮名テキストを1認識語彙とした動的認識辞書を生成する。また、情報処理装置10は、音声認識で1認識語彙を基準にワードスポッティングし、ワードスポッティングした音声範囲から頭出し再生位置を決定する。第1実施形態では、多モーラ、かつ1認識語彙に限定したワードスポッティング音声認識により、認識精度を高めて、頭出し再生位置の精度を向上させることができる。
As described above, in the first embodiment, the
上述した処理により、手動書き起こし、又は自動書き起こしの手動修正時において、頭出し再生位置の確定精度を向上し、書き起こし効率を高めることができる。したがって、音声の自動再生や停止の精度を向上させることができる。 By the above-described processing, it is possible to improve the accuracy of determining the cueing reproduction position and increase the transcription efficiency at the time of manual transcription or manual correction of automatic transcription. Therefore, it is possible to improve the accuracy of automatic playback and stop of voice.
<書き起こし支援処理の具体例>
次に、上述した書き起こし支援処理の具体例について説明する。図4は、書き起こし支援処理の具体例を示す図である。図4(A)、(B)は、それぞれ「仮名テキスト書き起こし単位」、「動的認識辞書の1認識語彙」、「頭出し再生位置」、「書き起こし単位確定時の頭出し再生」の例が示されている。また、図4(A)、(B)の例において、仮名テキストの書き起こし単位は、例えば「しゅどうそうち」、「および」、「ほうほうの」、・・・等であり、仮名テキストが入力される毎に、動的認識辞書が生成される。
<Specific examples of transcription support processing>
Next, a specific example of the above-described transcription support process will be described. FIG. 4 is a diagram showing a specific example of the transcription support process. 4A and 4B respectively show “kana text transcription unit”, “one recognition vocabulary of dynamic recognition dictionary”, “cue playback position”, and “cue playback when transcription unit is determined”. An example is shown. In the example of FIGS. 4A and 4B, the transcription unit of the kana text is, for example, “Shudosokochi”, “and”, “hono”,... Each time is input, a dynamic recognition dictionary is generated.
図4(A)、(B)の例では、説明の便宜上、「しゅどうそうち」、「および」、「ほうほうの」、・・・等の各仮名テキストが入力される毎に生成される各動的認識辞書を、そのまま残して示している。第1実施形態における動的認識辞書は、例えば図4(A)、(B)における各レコードである。 In the example of FIGS. 4A and 4B, for the convenience of explanation, each kana text such as “Sudosokochi”, “and”, “hono”,. Each dynamic recognition dictionary is left as it is. The dynamic recognition dictionary in the first embodiment is, for example, each record in FIGS. 4 (A) and 4 (B).
図4(A)では、1認識語彙を所定モーラ数(5モーラ)以上の仮名テキストとした例を示している。1認識語彙の最低モーラ数を設定しておくことで、ワードスポッティング精度を向上することができる。また、図4(A)の例では、ワードスポッティング終端モーラ終端を頭出し再生位置としたときの位置情報として、音声データの再生してからの時間情報が示されている。位置情報を時間情報として管理することで、例えば書き起こし単位の終端の位置情報を頭出し再生位置として音声をデータを再生することができる。 FIG. 4A shows an example in which one recognized vocabulary is a kana text having a predetermined number of mora (5 mora) or more. By setting the minimum number of mora for one recognized vocabulary, the word spotting accuracy can be improved. Further, in the example of FIG. 4A, time information after reproduction of audio data is shown as position information when the word spotting end mora end is set as the cue playback position. By managing the position information as time information, for example, it is possible to reproduce audio data using the position information at the end of the transcription unit as the cue reproduction position.
図4(B)では、1認識語彙を連結仮名テキストとした例を示している。これにより、1認識語彙のモーラ数を伸長して、ワードスポッティング精度を向上させることができる。また、図4(B)の例では、ワードスポッティングの中間モーラ先頭を頭出し再生位置としたときの時間情報が示されている。これにより、書き起こし正誤の再確認モードとして中間モーラ等から頭出し再生を行うことができる。なお、中間モーラ先頭は、連結仮名テキストにおける書き起こし単位において連結された次の語彙の先頭モーラを示している。図4(B)に示すように、ワードスポッティングにおける中間位置を採用することで、書き起こし効率重視モードの頭出し再生位置精度を向上することができる。 FIG. 4B shows an example in which one recognized vocabulary is connected kana text. Thereby, the number of mora of one recognition vocabulary can be expanded and word spotting accuracy can be improved. In the example of FIG. 4B, time information is shown when the head of the intermediate mora in word spotting is set as the cue playback position. This makes it possible to perform cue playback from an intermediate mora or the like as a transcription reconfirmation mode. The intermediate mora head indicates the head mora of the next vocabulary connected in the transcription unit in the connected kana text. As shown in FIG. 4B, by adopting the intermediate position in the word spotting, it is possible to improve the accuracy of the cue playback position in the transcription efficiency-oriented mode.
また、図4(C)に示すように、頭出し再生位置精度を向上させるために、先頭から900msの位置を頭出し再生位置とした場合、そのモーラが終端モーラの場合、次モーラの情報(音響的特徴量)がないため、終端境界の検出精度が劣化傾向となる。しかしながら、中間モーラがある場合、頭出し再生位置を決定する際に、中間モーラ(次モーラ)の情報(音響的特徴量)があるため、モーラ間境界の検出精度を向上することができ、例えば先頭から880ms等の適切な位置を頭出し再生位置とすることができる。 Also, as shown in FIG. 4C, in order to improve the cue playback position accuracy, when the position of 900 ms from the head is set as the cue playback position, if the mora is the end mora, the next mora information ( Since there is no acoustic feature value), the detection accuracy of the end boundary tends to deteriorate. However, when there is an intermediate mora, there is information (acoustic feature amount) of the intermediate mora (next mora) when determining the cueing reproduction position, so that the detection accuracy of the boundary between mora can be improved. An appropriate position such as 880 ms from the beginning can be set as the cue playback position.
<第2実施形態>
次に、第2実施形態について説明する。第2実施形態では、サーバとクライアント端末とを用いたシステム構成により、上述した第1実施形態と同様の書き起こし支援処理を実現するものである。
Second Embodiment
Next, a second embodiment will be described. In the second embodiment, a transcription support process similar to that in the first embodiment described above is realized by a system configuration using a server and a client terminal.
図5は、第2実施形態における情報処理システムのシステム構成例を示す図である。図5に示す情報処理システムは、サーバ31と、クライアント端末32とを有し、サーバ31とクライアント端末32とは、インターネットやLAN等に代表される通信ネットワーク33によりデータの送受信が可能な情報で接続されている。通信ネットワーク33は、有線でも無線でもよく、これらの組み合わせでもよい。なお、サーバ31とクライアント端末32との数は、これに限定されるものではなく、例えば複数のクライアント端末32がサーバ31と接続されていてもよい。サーバ31及びクライアント端末32が、上述した情報処理装置のハードウェア構成等を有する。
FIG. 5 is a diagram illustrating a system configuration example of an information processing system according to the second embodiment. The information processing system shown in FIG. 5 includes a
サーバ31は、は、通信制御部41と、記憶部42と、辞書生成部43と、位置情報抽出部44とを有する。記憶部42は、音声データ格納部42aを有する。
The
通信制御部41は、通信ネットワーク33を介してクライアント端末32や他の外部装置との通信制御によりデータ等の送受信を行う。音声データ格納部42aは、各クライアント端末32から得られる音声データを格納する。辞書生成部43は、クライアント端末32から得られる書き起こし単位の仮名テキストから動的認識辞書を生成する。
The
位置情報抽出部44は、動的認識辞書を用いて音声データの位置情報を抽出し、通信制御部41により、音声データ位置情報をクライアント端末32へ送信する。
The position
サーバ31は、例えばPC等でもよく、また一以上の情報処理装置を有するクラウドコンピューティングにより構成されたクラウドサーバであってもよいが、これに限定されるものではない。
The
クライアント端末32は、通信制御部51と、入力部52と、テキスト生成部53と、再生位置決定部54と、音声再生部55と、記憶部56とを有する。音声データ格納部56aを有する。
The
通信制御部51は、通信ネットワーク33を介してサーバ31や他の外部装置との通信制御によりデータ等の送受信を行う。入力部52は、ユーザの手動によるテキストデータの入力や処理の開始又は終了の指示等を受け付ける。テキスト生成部53は、書き起こし単位のテキストを生成する。ここで、通信制御部51は、テキスト生成部53により生成された書き起こし単位のテキストと音声データ格納部56aから得られる音声データを通信ネットワーク33を介してサーバ31に送信する。
The
再生位置決定部54は、通信制御部51によりサーバ31に送信した書き起こし単位のテキスト及び音声データに対応する音声データの位置情報から頭出し再生位置を決定する。音声再生部55は、音声データを再生位置決定部54で得られた頭出し再生位置から音声データを再生する。
The reproduction
音声データ格納部56aは、クライアント端末32毎に音声データを格納する。格納した音声データは、通信制御部51から通信ネットワーク33を介してサーバ31に送信される。
The audio
上述した第2実施形態におけるサーバ31及びクライアント端末32の各構成を用いて、上述した第1実施形態における書き起こし支援処理と同様の処理を行うことができる。例えば、図3に示す各処理のうち、例えばS08〜S10の処理がサーバ31側で実行され、それ以外の処理がクライアント端末32側で実行される。サーバ31とクライアント端末32との間のデータの送受信は、通信制御部41,51で行われる。
Using the configurations of the
第2実施形態によれば、例えばクラウドサービス型の書き起こし支援システムを提供することができる。また、第2実施形態によれば、クライアント端末32側の処理負荷を第1実施形態よりも軽減することができる。
According to the second embodiment, for example, a cloud service type transcription support system can be provided. Further, according to the second embodiment, the processing load on the
<第3実施形態>
次に、第3実施形態について説明する。第3実施形態では、第2実施形態と同様にサーバとクライアント端末とに分かれたシステム構成を用いるが、構成の一部を変更する。以下の説明では、第2実施形態と同様の構成部分には、同様の符号を付することとし、ここでの具体的な説明は省略する。
<Third Embodiment>
Next, a third embodiment will be described. In the third embodiment, a system configuration divided into a server and a client terminal is used as in the second embodiment, but a part of the configuration is changed. In the following description, the same reference numerals are given to the same components as those in the second embodiment, and a specific description thereof is omitted here.
図6は、第3実施形態における情報処理システムのシステム構成例を示す図である。第3実施形態における情報処理システム30'は、サーバ31'と、クライアント端末32'とを有し、サーバ31'とクライアント端末32'とは、通信ネットワーク33によりデータの送受信が可能な情報で接続されている。
FIG. 6 is a diagram illustrating a system configuration example of an information processing system according to the third embodiment. The
第3実施形態と第2実施形態とを比較すると、サーバ31'は、サーバ31に示す音声データ格納部42aを有していない。また、クライアント端末32'は、クライアント端末32と比較して特徴量抽出部61を有している。
Comparing the third embodiment and the second embodiment, the
特徴量抽出部61は、音声データを所定フレーム長単位で解析して、対応する音響的特徴量を抽出する。音響的特徴量とは、例えばMel Frequency Cepstrum Coefficient(MFCC,メル周波数ケプストラム係数)等の特徴量であるが、これに限定されるものではない。例えば入力音声に対するパワー(音量)や、Differential Mel Frequency Cepstrum Coefficient(DMFCC,差分メル周波数ケプストラム係数等を用いることができる。 The feature amount extraction unit 61 analyzes the sound data in units of a predetermined frame length and extracts a corresponding acoustic feature amount. The acoustic feature amount is, for example, a feature amount such as Mel Frequency Cepstrum Coefficient (MFCC, Mel frequency cepstrum coefficient), but is not limited thereto. For example, power (sound volume) with respect to the input voice, differential mel frequency cepstrum coefficient (DMFCC, differential mel frequency cepstrum coefficient, etc.) can be used.
通信制御部51は、サーバ31'に対して書き起こし単位仮名テキスト及び音響的特徴量を送信する。また、通信制御部51は、サーバ31'から音声データの位置情報を受信する。
The
サーバ31'において、通信制御部41は、クライアント端末32'から書き起こし単位仮名テキスト及び音響的特徴量を受信する。また、通信制御部41は、音声データの位置情報をクライアント端末32'に送信する。
In the
辞書生成部43は、クライアント端末32'から送信された書き起こし単位仮名テキストから動的認識辞書を生成する。位置情報抽出部44は、クライアント端末32'から送信された所定フレーム長単位の音響的特徴量から音声認識して、音声データ位置情報を抽出する。通信制御部41は、位置情報抽出部44により抽出された位置情報を通信ネットワーク33を介してクライアント端末32'に送信する。
The
クライアント端末32'の再生位置決定部54は、第2実施形態と同様に、サーバ31'から得られる音声データの位置情報から頭出し再生位置を決定する。音声再生部55は、音声データを再生位置決定部54で得られた頭出し再生位置から音声データを再生する。
The playback
第3実施形態によれば、例えばクラウドサービス型の書き起こし支援システムを提供することができる。また、第2実施形態によれば、クライアント端末32側の処理負荷を第1実施形態よりも軽減することができる。なお、上述した第2及び第3実施形態では、いわゆる分散型音声認識(DSR)処理を実現できる。分散型音声認識では、音声認識の高負荷処理をサーバ31側で行い、軽負荷処理をクライアント端末32側で行う。また、第3実施形態では、音声データではなく、音響的特徴量をサーバ31'に送信するため、クライアント端末32側の処理負荷を軽減だけでなく、ネットワーク通信負荷も軽減することができる。
According to the third embodiment, for example, a cloud service type transcription support system can be provided. Further, according to the second embodiment, the processing load on the
<辞書生成部15,43及び再生位置決定部17,54の具体例>
次に、上述した第1〜第3実施形態における辞書生成部15,43及び再生位置決定部17,54を用いた書き起こし支援処理の具体例について、図を用いて説明する。
<Specific Examples of
Next, a specific example of the transcription support process using the
<第1実施例>
図7は、書き起こし支援処理の第1実施例を示す図である。図7(A)は、第1実施例における辞書生成部15,43の構成例を示している。第1実施例において、辞書生成部15,43は、書き起こし単位結合部71と、動的認識辞書生成部72とを有する。
<First embodiment>
FIG. 7 is a diagram showing a first embodiment of the transcription support process. FIG. 7A shows a configuration example of the
書き起こし単位結合部71は、書き起こし単位の仮名テキストが所定モーラ数以上となるまで、書き起こし単位の仮名テキストを結合する。動的認識辞書生成部72は、書き起こし単位結合部71により結合された書き起こし単位の仮名テキストから動的認識辞書を生成する。
The transcription
図7(B)は、第1実施例における辞書生成処理の一例を示すフローチャートである。図7(B)の例において、書き起こし単位結合部71は、仮名テキスト(書き起こし単位)を入力すると(S21)、その認識語彙のモーラ数(n)をカウントし(S22)、モーラ数(n)が所定のモーラ数(閾値)以上か否かを判断する(S23)。
FIG. 7B is a flowchart showing an example of dictionary generation processing in the first embodiment. In the example of FIG. 7B, when the transcription
所定のモーラ数以上でない場合(S23において、NO)、書き起こし単位結合部71は、認識処理で直前に成功した認識結果に対応する仮名テキストと結合して、認識対象の語彙のモーラ数を長くする(S24)。モーラ数を多くすることで、認識精度を向上させることができる。また、S24の処理後、S22の処理に戻る。
If the number is not equal to or greater than the predetermined number of moras (NO in S23), the transcription
また、所定のモーラ数以上である場合(S23において、YES)、動的認識辞書生成部72は、長音化仮名テキストを生成し(S25)、動的認識辞書を生成し(S26)、生成した動的認識辞書を出力する(S27)。S27の処理では、生成した動的認識辞書を記憶部11、42等に記憶させてもよい。
If the number of moras is equal to or greater than the predetermined number of moras (YES in S23), the dynamic recognition
図7(C)は、第1実施例に対応する書き起こし単位の一例を示している。第1実施例では、原則、仮名テキストの結合は、書き起こし単位とする。例えば、所定のモーラ数(閾値)を5モーラとすると「さいせい」が入力された場合のモーラ数が4であるため、次の「いちの」と結合され「さいせいいちの」となる。このときのモーラ数が7となり、5モーラ以上となるため、これ以上の結合は行わない。 FIG. 7C shows an example of a transcription unit corresponding to the first embodiment. In the first embodiment, in principle, the combination of kana text is a transcription unit. For example, if the predetermined number of mora (threshold value) is 5 mora, the number of mora when “Saisei” is input is 4, so it is combined with the next “Ichino” and becomes “Saisei Ichino”. At this time, the number of mora becomes 7 and becomes 5 mora or more, so no further coupling is performed.
また、第1実施例では、図7(C)に示すように、仮名テキストの結合を所定モーラ数単位としてもよい。この場合、例えば、所定モーラ数を5モーラとすると、例えば「さいせい」だけだと4モーラであるため1モーラ不足し、結合した「さいせいいちの」だと7モーラであるため、2モーラオーバーする。したがって、モーラ数を5モーラとするために、例えばテキストの終端から前に5モーラ分である「せいいちの」を抽出して、動的認識辞書を生成してもよい。 In the first embodiment, as shown in FIG. 7C, the kana text may be combined in units of a predetermined number of mora. In this case, for example, if the predetermined number of mora is 5 mora, for example, if only “Saisei” is 4 mora, 1 mora is insufficient, and if combined “Saisei Ichino” is 7 mora, 2 mora. Over. Therefore, in order to set the number of mora to 5 mora, for example, “Seiichino” that is 5 mora before the end of the text may be extracted to generate a dynamic recognition dictionary.
また、第1実施例では、仮名テキストの結合条件として、図7(C)に示すように、音声データ位置情報が確定した書き起こし単位を全て結合してもよい。例えば、仮名テキストが「あたまだし」、「さいせい」、「いちの」であり、それぞれの位置情報が確定している場合に、「あたまだしさいせいいちの」として結合してもよい。 Further, in the first embodiment, as a kana text combining condition, as shown in FIG. 7C, all the transcription units in which the voice data position information is determined may be combined. For example, if the kana texts are “Atamashishi”, “Saisei”, “Ichino”, and the location information of each is fixed, it will be combined as “Atamashisaiseiichinoichi” Also good.
ここで、図8は、書き起こし支援処理の第1実施例における動作を説明するための図である。図8の例では、例文として「頭出し再生位置の設定精度が劣化」という文章を用いた動作内容を示している。また、図8(A)〜(C)は、時系列で入力される仮名テキスト(書き起こし単位)に対して、どのように動的認識辞書が生成され、またどのように音声が再生されていくかを示している。 FIG. 8 is a diagram for explaining the operation in the first embodiment of the transcription support process. In the example of FIG. 8, the operation content using the sentence “setting accuracy of the cue playback position is degraded” is shown as an example sentence. FIGS. 8A to 8C show how a dynamic recognition dictionary is generated and how sound is reproduced for a kana text (transcription unit) input in time series. Shows how to go.
まず、図8の(A)の部分では、音声再生「あたまだし・・・」に対して入力された仮名テキスト「あたまだし」が所定モーラ数(5モーラ)以上であるため、そのまま動的認識辞書が生成される。また、図8(A)の例では、「あたまだし」の音声データ位置情報が確定したため(音声認識成功)、確定した仮名テキストに続く録音音声が再生される。 First, in the part (A) of FIG. 8, the kana text “Atamashishi” input for the voice reproduction “Atamashi ...” is greater than or equal to a predetermined number of mora (5 mora). A dynamic recognition dictionary is generated as it is. Further, in the example of FIG. 8A, since the voice data position information of “Atamashi” has been confirmed (speech recognition is successful), the recorded voice following the confirmed kana text is reproduced.
次に、図8の(B)の部分では、音声再生「さいせい・・・」に対して入力された仮名テキスト「さいせい」が所定モーラ数(5モーラ)以上ではないため、前の書き起こし単位の仮名テキストと結合して5モーラ以上となった時点で動的認識辞書を生成する例を示している。なお、第1実施例では、音声データ位置情報の確定時に、図8(B)に示すように、予め設定された長母音化ルールにより長母音化処理された語彙(長音化仮名テキスト)も含めて動的認識辞書に登録する。したがって、動的認識辞書には、図8(B)に示すように「あたまだしさいせい」、「あたまだしさいせ−」の2つのデータが生成されることになる。 Next, in the part (B) of FIG. 8, since the kana text “saisei” input for the audio reproduction “saisei ...” is not more than the predetermined number of moras (5 mora), An example is shown in which a dynamic recognition dictionary is generated when the combined kana text of the wake-up unit becomes 5 mora or more. In the first embodiment, at the time of determining the voice data position information, as shown in FIG. 8 (B), the vocabulary (long phonetic kana text) subjected to the long vowel processing according to the preset long vowel rule is also included. To register in the dynamic recognition dictionary. Accordingly, in the dynamic recognition dictionary, as shown in FIG. 8 (B), two pieces of data “Amata Seisei” and “Amata Seisei” are generated.
次に、図8(C)の部分では、音声再生「いちの・・・」に対して入力された仮名テキスト「いちの」が所定モーラ数(5モーラ)以上でないため、前の前の書き起こし単位の仮名テキストと結合して、5モーラ以上となった時点で動的認識辞書を生成する例を示している。図8(C)の場合も上述した図8(B)に示す長母音化ルールを適用した認識語彙を動的認識辞書に追加する。したがって、動的認識辞書には、図8(C)に示すように「さいせいいちの」、「さいせ−いちの」の2つのデータが生成される。以下、上述した処理と同様の手順で例文が終了するまで書き起こし処理が行われる。 Next, in the part of FIG. 8C, since the kana text “Ichino” input for the audio reproduction “Ichino ...” is not more than the predetermined number of mora (5 mora), An example is shown in which a dynamic recognition dictionary is generated at the time when it becomes 5 mora or more by combining with the kana text of the wakeup unit. In the case of FIG. 8C as well, the recognition vocabulary to which the long vowelization rule shown in FIG. 8B is applied is added to the dynamic recognition dictionary. Accordingly, in the dynamic recognition dictionary, as shown in FIG. 8C, two data of “saisei ichino” and “saisei ichino” are generated. Thereafter, the transcription process is performed until the example sentence is completed in the same procedure as described above.
このように、第1実施例により生成された動的認識辞書を利用して、録音音声のワードスポッティングをして手動書き起こしで確定したテキストに続く録音音声の再生位置を適切に特定することができ、文書書き起こし効率を高めることができる。 As described above, by using the dynamic recognition dictionary generated by the first embodiment, it is possible to appropriately specify the playback position of the recorded voice following the text determined by manual transcription by word spotting of the recorded voice. Can improve the efficiency of document transcription.
<第2実施例>
図9は、書き起こし支援処理の第2実施例を示す図である。図9(A)は、第2実施例における辞書生成部15,43の構成例を示している。第2実施例において、辞書生成部15,43では、上述した第1実施例と同様に、書き起こし単位結合部71と、動的認識辞書生成部72とを有する。
<Second embodiment>
FIG. 9 is a diagram showing a second embodiment of the transcription support process. FIG. 9A shows a configuration example of the
第2実施例では、音声データの位置情報を用いて動的認識辞書を生成する。音声データの位置情報は、例えば仮名テキスト(書き起こし単位)の先頭と終端のみの音声データ位置情報でもよく、また仮名テキスト(書き起こし単位)の各モーラの開始又は終端位置のデータ位置情報でもよい。 In the second embodiment, a dynamic recognition dictionary is generated using position information of voice data. The position information of the voice data may be, for example, voice data position information only at the beginning and end of the kana text (transcription unit), or may be data position information of the start or end position of each mora of the kana text (transcription unit). .
図9(B)は、辞書生成処理の第2実施例を示すフローチャートである。図9(B)の例において、辞書生成部15,43は、仮名テキストを入力し(S31)、音声データ位置情報を入力する(S32)。次に、辞書生成部15,43は、音声データの位置情報から仮名テキストを結合するか否かを判断する(S33)。S33の処理では、S31の処理で入力された仮名テキストに対する音声データ位置情報が不確定である場合に、仮名テキストを結合すると判断する。また、仮名テキストに対する位置情報が確定している場合には、結合と行わないと判断する。
FIG. 9B is a flowchart showing a second embodiment of the dictionary generation process. In the example of FIG. 9B, the
なお、S33の処理は、これに限定されるものではない。例えば、S33の処理では、音声データ位置情報から、仮名テキスト(書き起こし単位)の先頭と終端の位置情報の間隔が所定値以下の場合(仮名テキストに対応する音声データの再生時間が短時間の場合)に結合してもよい。また、例えば仮名テキスト(書き起こし単位)の各モーラに対し、前のモーラの終端位置と、その後のモーラの開始位置との間隔が所定値以下の場合(モーラ間の位置(間隔)が短い場合)に、結合してもよい。 Note that the processing of S33 is not limited to this. For example, in the process of S33, when the interval between the position information of the beginning and end of the kana text (transcription unit) is less than a predetermined value from the audio data position information (the reproduction time of the audio data corresponding to the kana text is short) Case). Also, for example, for each mora of kana text (transcription unit), when the interval between the end position of the previous mora and the start position of the subsequent mora is below a predetermined value (when the position (interval) between mora is short) ) May be combined.
辞書生成部15,43は、仮名テキストを結合する場合(S33において、YES)、仮名テキストを書き起こし単位で結合する(S34)。S34の処理後、又はS33の処理において、仮名テキストを結合しない場合(S33において、NO)、辞書生成部15,43は、長音化仮名テキストを生成し(S35)、動的認識辞書を生成し(S36)、動的認識辞書を出力する(S37)。
When combining the kana texts (YES in S33), the
図9(C)は、第2実施例における音声データ位置情報の例(書き起こし単位)を示している。第2実施例では、書き起こし単位の最初のモーラ音声の開始位置300msと終了位置900msのみを音声データ位置情報としてもよい。第2実施例では、入力した仮名テキストに対応する音声データの位置情報が確定したか否かや、図9(C)に示すような音声データ位置情報を用いて、仮名テキストの結合の要否を適切に判断することができる。
FIG. 9C shows an example (transcription unit) of audio data position information in the second embodiment. In the second embodiment, only the
図10は、書き起こし支援処理の第2実施例における動作を説明するための図である。図10の例では、第1実施例と同様に、例文として「頭出し再生位置の設定精度が劣化」を用いる。また、図10の例では、図8と同様に、時系列で入力される仮名テキスト(書き起こし単位)に対して、どのように動的認識辞書が生成され、またどのように音声が再生されていくかを示している。 FIG. 10 is a diagram for explaining the operation in the second embodiment of the transcription support process. In the example of FIG. 10, as in the first embodiment, “setting accuracy of the cue playback position is degraded” is used as an example sentence. In the example of FIG. 10, as in FIG. 8, how the dynamic recognition dictionary is generated and how the voice is reproduced for the kana text (transcription unit) input in time series. It shows how to go.
まず、図10(A)の部分では、音声再生「あたまだし・・・」に対して入力された仮名テキスト「あたまだし」が、動的認識辞書として生成される。また、図10(A)の例では、「あたまだし」の音声データ位置情報が確定したため(音声認識成功)、確定した仮名テキストに続く録音音声が再生される。 First, in the part of FIG. 10A, the kana text “Atamashishi” input for the voice reproduction “Atamashishi ...” is generated as a dynamic recognition dictionary. Further, in the example of FIG. 10A, since the voice data position information of “Atamashishi” is confirmed (speech recognition success), the recorded voice following the confirmed kana text is reproduced.
次に、図10(B−1)の部分では、音声再生「さいせい・・・」に対して音声認識が失敗し、音声データ位置情報が不確定となっている。したがって、このような場合に、図10(B−2)に示すように、音声データ位置情報が確定している前の書き起こし単位の仮名テキストと結合して、再度音声認識処理を実行する。そして、音声データ位置情報が確定(音声認識成功)した場合に、動的認識辞書を生成する(「あたまだしさいせい」、「あたまだしさいせ−」)。以下、上述した処理と同様の手順で例文が終了するまで書き起こし処理が行われる。 Next, in the part of FIG. 10 (B-1), voice recognition fails for voice playback “saisei ...”, and voice data position information is indeterminate. Therefore, in such a case, as shown in FIG. 10B-2, the speech recognition process is executed again by combining with the kana text of the transcription unit before the speech data position information is confirmed. When the voice data position information is confirmed (speech recognition is successful), a dynamic recognition dictionary is generated (“Adamashi Saisei”, “Adamashi Saisei”). Thereafter, the transcription process is performed until the example sentence is completed in the same procedure as described above.
上述したように、第2実施例では、途中の不確定の部分があってもそれを無視して先の音声と結合することで、効率的に動的認識辞書を生成することができる。 As described above, in the second embodiment, a dynamic recognition dictionary can be efficiently generated by ignoring an indeterminate part in the middle and combining it with the previous speech.
<第3実施例>
図11は、書き起こし支援処理の第3実施例を示す図である。図11(A)は、第3実施例における再生位置決定部17,54の構成例を示している。第3実施例において、再生位置決定部17,54は、モード指定部81と、再生位置選択部82とを有する。
<Third embodiment>
FIG. 11 is a diagram showing a third embodiment of the transcription support process. FIG. 11A shows a configuration example of the reproduction
モード指定部81は、ユーザ指定等により再生モードの指定を受け付ける。再生モードは、例えば確定した書き起こし単位の仮名テキストの内容を確認する確認モード等がある。
The
再生位置選択部82は、モード指定部81により指定されたモードに基づいて音声データの再生開始位置を選択する。例えば、「確認モードON」の場合、再生位置選択部82は、現在の書き起こし単位の先頭から頭出し再生する。例えば、書き起こしテキスト部分を再度視聴して書き起こしミスがないか確認するモードであるが、これに限定されるものではない。
The reproduction
また、「確認モードOFF」の場合、再生位置選択部82は、現在の書き起こし単位の終端から頭出し再生する。例えば、確定した仮名テキスト(書き起こし単位)に続く次の位置から頭出し再生して、書き起こし効率を優先するモードである。なお、再生モードについては、上述した例に限定されるものではない。
In the case of “confirmation mode OFF”, the playback
図11(B)は、書き起こし支援処理の第3実施例を示すフローチャートである。図11(B)の例において、再生位置決定部17,54は、再生モードの指定を受け付け(S41)、その後、音声データ位置情報を入力する(S42)。
FIG. 11B is a flowchart showing a third embodiment of the transcription support process. In the example of FIG. 11B, the reproduction
次に、再生位置決定部17,54は、位置情報が不確定は否かを判断し(S43)、位置情報が不確定である場合(S43において、YES)、再生開始位置を不確定として、その旨の情報を出力し(S44)、そのまま処理を終了する。S44の処理では、再生開始位置を出力しない。
Next, the playback
また、再生位置決定部17,54は、位置情報が不確定でない場合(S43において、NO)、再生モードにより確認モードがONか否かを判断する(S45)。確認モードがONの場合(S45において、YES)、再生開始位置を入力した仮名テキスト(書き起こし単位)に対応する音声データの先頭に位置付ける(S46)。また、再生モードがONでない場合(S45において、NO)、再生開始位置を入力した仮名テキスト(書き起こし単位)に対応する音声データの終端に位置付ける(S47)。再生位置決定部17,54は、S46,S47の処理後、再生開始位置を出力する(S48)。
In addition, when the position information is not indefinite (NO in S43), the reproduction
図12は、書き起こし支援処理の第3実施例における動作を説明するための図である。図12の例では、上述した第1、第2実施例と同様に、例文として「頭出し再生位置の設定精度が劣化」を用いる。 FIG. 12 is a diagram for explaining the operation in the third embodiment of the transcription support process. In the example of FIG. 12, as in the first and second embodiments described above, “determination of setting accuracy of the cue playback position” is used as an example sentence.
図12の例では、時系列で入力される仮名テキスト(書き起こし単位)に対して、再生モードに応じて、どのように動的認識辞書が生成され、またどのように音声が再生されていくかを示している。 In the example of FIG. 12, for a kana text (transcription unit) input in chronological order, how a dynamic recognition dictionary is generated and how sound is reproduced according to the playback mode. It shows.
まず、図12(A)の部分では、再生モードの一例として、上述した確認モードがONの場合の例を示している。音声再生「あたまだし・・・」に対して入力された仮名テキスト「あたまだし」が動的認識辞書として生成される。また、図12(A)の例では、確認モードがONであるため、図12(B)に示すように、確定した「あたまだし」の先頭から録音音声が再生される。これにより、書き起こした内容を確認する作業を効率的に行うことができる。 First, FIG. 12A shows an example in which the above-described confirmation mode is ON as an example of the playback mode. The kana text “Atamashishi” input for the voice reproduction “Atamashishi ...” is generated as a dynamic recognition dictionary. In the example of FIG. 12A, since the confirmation mode is ON, as shown in FIG. 12B, the recorded sound is reproduced from the head of the determined “Amatashi”. As a result, it is possible to efficiently check the written contents.
また、図12(B)の部分において、例えば再生モードの一例として、上述した確認モードがOFFの場合、音声再生「あたまだしさいせい・・・」に対して音声データ位置情報が確定(音声認識成功)すると、対応する動的認識辞書(「あたまだしさいせい」、「あたまだしさいせ−」)が生成される。このとき、確認モードはOFFであるため、図12(C)に示すように、書き起こし単位の終端位置から頭出し再生を行う。これにより、次の書き起こしを迅速に行うことができる。 Also, in the part of FIG. 12B, as an example of the playback mode, for example, when the above-described confirmation mode is OFF, the audio data position information is determined for the audio playback “Adamashi Saisei ...” ( When the speech recognition is successful, corresponding dynamic recognition dictionaries (“Adamashi Saisei”, “Adamashi Saisei-”) are generated. At this time, since the confirmation mode is OFF, as shown in FIG. 12C, cue playback is performed from the end position of the transcription unit. Thereby, the next transcription can be performed quickly.
図12(C)の例では、音声再生「いちのせってい・・・」に対して入力された仮名テキスト「いちの」に対して所定モーラ数等からモーラ数を調整し、音声データ位置情報が確定後に動的認識辞書(「さいせいいちの」、「さいせーいちの」が生成される。以下、上述した処理と同様の手順で例文が終了するまで書き起こし処理が行われる。 In the example of FIG. 12C, the mora number is adjusted from the predetermined number of mora or the like for the kana text “Ichinosete ...” input for the voice reproduction “Ichinosete... After the determination, dynamic recognition dictionaries (“saisei ichino” and “saisei ichino” are generated. Transcription processing is performed until the example sentence is completed in the same procedure as described above.
上述したように、第3実施例では、再生モードに応じてユーザの目的にあった再生位置から再生することができるため、文書書き起こし効率を高めることができる。 As described above, in the third embodiment, it is possible to reproduce from a reproduction position suited to the user's purpose in accordance with the reproduction mode, so that the document transcription efficiency can be increased.
<第4実施例>
図13は、書き起こし支援処理の第4実施例を示す図である。第4実施例では、上述した第1〜第3の実施例を部分的に組み合わせた例を示している。
<Fourth embodiment>
FIG. 13 is a diagram showing a fourth embodiment of the transcription support process. In the fourth embodiment, an example in which the above-described first to third embodiments are partially combined is shown.
図13の例では、2つの辞書生成部15−1,15−2と、位置情報抽出部16と、再生位置決定部17とを有する。辞書生成部15−1は、動的認識辞書生成部72−1を有する。辞書生成部15−2は、書き起こし単位結合部71と、動的認識辞書生成部72−2とを有する。再生位置決定部17は、モード指定部81と、再生位置選択部82とを有する。なお、各構成については、上述した各実施例にて説明しているため、ここでの具体的な説明は省略する。
In the example of FIG. 13, two dictionary generation units 15-1 and 15-2, a position
第4実施例では、複数の辞書生成部15−1,15−2が、それぞれ異なる条件で動的認識辞書(辞書A,B)を生成し、生成した動的認識辞書を用いて音声データの位置情報を抽出する。上述した異なる条件とは、例えばモーラ数を基準にしてもよく、音声データ位置情報の確定、不確定等を基準した条件であり、上述した第1〜第3実施例で示した辞書生成の条件であるが、これに限定されるものではない。 In the fourth embodiment, a plurality of dictionary generation units 15-1 and 15-2 generate dynamic recognition dictionaries (dictionaries A and B) under different conditions, and the generated dynamic recognition dictionary is used to generate voice data. Extract location information. The different conditions described above may be based on, for example, the number of mora, and are conditions based on confirmation, uncertainness, etc. of the voice data position information. The conditions for generating the dictionary shown in the first to third embodiments described above. However, the present invention is not limited to this.
また、第4実施例は、モード指定部81において、確認モードの指定を受け付け、受け付けた内容に基づいて音声データの再生位置を選択し、再生開始位置を出力する。次に、図13に示す構成に対応する書き起こし支援処理についてフローチャートを用いて説明する。
In the fourth embodiment, the
図14は、書き起こし支援処理の第4実施例を示す一例のフローチャートである。図14の例において、辞書生成部15−1は、仮名テキスト(書き起こし単位)の入力を受け付けると(S51)、長音化仮名テキストを生成し(S52)、動的認識辞書(辞書A)を生成する(S53)。 FIG. 14 is a flowchart of an example showing a fourth embodiment of the transcription support process. In the example of FIG. 14, upon receiving input of kana text (transcription unit) (S 51), the dictionary generation unit 15-1 generates a prolonged kana text (S 52) and creates a dynamic recognition dictionary (dictionary A). Generate (S53).
次に、位置情報抽出部16は、辞書Aを用いて音声認識処理を行い(S54)、認識が成功したか否かを判断する(S55)。認識が成功した場合(S55において、YES)、位置情報抽出部16は、音声データ位置情報を抽出する(S56)。認識に成功していない場合(S56において、NO)、位置情報抽出部16は、音声データ位置情報を不確定とする(S57)。
Next, the position
次に、辞書生成部15−2は、音声データ位置情報があるか否かを判断し(S58)、音声データ位置情報がある場合(S58において、YES)、仮名テキストを書き起こし単位で結合する(S59)。また、S59の処理後、又は、S58において、音声データ位置情報がない場合(S58において、NO)、辞書生成部15−2は、長音化仮名テキストを生成する(S60)。 Next, the dictionary generation unit 15-2 determines whether there is voice data position information (S58). If there is voice data position information (YES in S58), the kana text is transcribed and combined in units. (S59). In addition, after the process of S59 or when there is no voice data position information in S58 (NO in S58), the dictionary generation unit 15-2 generates a prolonged kana text (S60).
次に、辞書生成部15−2は、動的認識辞書(辞書B)を生成する(S61)。次に、位置情報抽出部16は、辞書Bを用いて音声認識処理を行い(S62)、認識に成功したか否かを判断する(S63)。認識が成功した場合(S63において、YES)、位置情報抽出部16は、音声データ位置情報を抽出する(S64)。また、認識が成功しなかった場合(S63において、NO)、音声データ位置情報を不確定とする(S65)。
Next, the dictionary generation unit 15-2 generates a dynamic recognition dictionary (dictionary B) (S61). Next, the position
S64又はS65の処理後、位置情報が不確定か否かを判断し(S66)、不確定である場合(S66において、YES)、再生開始位置を不確定として(S67)、その旨の情報を出力又は何も出力せずに処理を終了する(S67)。 After the process of S64 or S65, it is determined whether or not the position information is uncertain (S66). If it is uncertain (YES in S66), the reproduction start position is uncertain (S67), and information to that effect is displayed. The process ends without outputting or outputting anything (S67).
また、位置情報が不確定でない場合(S66において、NO)、再生位置決定部17は、ユーザによりモード指定部81で指定された確認モードがONであるか否かを判断する(S68)。
If the position information is not indefinite (NO in S66), the playback
再生位置決定部17は、確認モードがONの場合(S68において、YES)、再生開始位置を入力した仮名テキスト(書き起こし単位)に対応する音声データの先頭に位置付ける(S69)。また、再生モードがONでない場合(S68において、NO)、再生開始位置を入力した仮名テキスト(書き起こし単位)に対応する音声データの終端に位置付ける(S70)。再生位置決定部17は、S69,S70の処理後、再生開始位置を出力する(S71)。
When the confirmation mode is ON (YES in S68), the reproduction
図15は、書き起こし支援処理の第4実施例における動作を説明するための図である。図15の例では、上述した第1〜第3実施例と同様に、例文として「頭出し再生位置の設定精度が劣化」を用いる。 FIG. 15 is a diagram for explaining the operation in the fourth embodiment of the transcription support process. In the example of FIG. 15, as in the first to third embodiments described above, “determination of setting accuracy of the cue playback position” is used as an example sentence.
図15の例では、時系列で入力される仮名テキスト(書き起こし単位)に対して、再生モードに応じて、どのように動的認識辞書が生成され、またどのように音声が再生されていくかを示している。第4実施例では、音声認識の失敗時に動的認識辞書を異なる条件で再生成して再度認識を行う。 In the example of FIG. 15, for a kana text (transcription unit) input in chronological order, how a dynamic recognition dictionary is generated and how sound is reproduced according to the playback mode. It shows. In the fourth embodiment, when voice recognition fails, the dynamic recognition dictionary is regenerated under different conditions and recognized again.
まず、図15(A)の部分では、音声再生「あたまだし・・・」に対して入力された仮名テキスト「あたま」が、動的認識辞書として生成される。また、図15(A)の例では、「あたま」の音声データ位置情報が確定したため(音声認識成功)、確定した仮名テキストに続く録音音声が再生される。 First, in the part of FIG. 15A, the kana text “Atama” input for the voice reproduction “Atamashi ...” is generated as a dynamic recognition dictionary. In the example of FIG. 15A, since the voice data position information of “Atama” is confirmed (speech recognition is successful), the recorded voice following the confirmed kana text is reproduced.
次に、図15(B−1)の部分では、音声再生「だしさいせい・・・」に対して音声認識が失敗し、音声データ位置情報が不確定となっている。この場合、動的認識辞書を異なる条件で再生成を行う。図15(B−2)の部分では、動的認識辞書として「あたまだし」が生成されている。 Next, in the part of FIG. 15 (B-1), the voice recognition fails for the voice reproduction “Dashisaisei ...”, and the voice data position information is indeterminate. In this case, the dynamic recognition dictionary is regenerated under different conditions. In the part of FIG. 15 (B-2), “tamanashi” is generated as the dynamic recognition dictionary.
次に、再生成された動的認識辞書を用いて、再度音声認識処理を実行し、音声データ位置情報が確定(音声認識成功)した場合に、図15(C)に示すように、音声再生「さいせい・・・」に対して続けて処理を実行することができる。以下、上述した処理と同様の手順で例文が終了するまで書き起こし処理が行われる。 Next, when the voice recognition process is executed again using the regenerated dynamic recognition dictionary and the voice data position information is determined (successful voice recognition), as shown in FIG. The process can be continuously executed for “Saisei ...”. Thereafter, the transcription process is performed until the example sentence is completed in the same procedure as described above.
上述したように、第4実施例では、音声認識が失敗したとしても、そのとき用いた動的認識辞書を再生成して再度音声認識処理を実行することができるため、作業が中断せずに効率的に動的認識辞書を生成することができる。なお、第4実施例では、2つの辞書生成部15−1,15−2を用いたが、音声認識が成功するまで、繰り返し動的認識辞書を再生成してもよい。その場合は、3以上の辞書生成部を有してもよい。 As described above, in the fourth embodiment, even if the speech recognition fails, the dynamic recognition dictionary used at that time can be regenerated and the speech recognition process can be executed again, so that the operation is not interrupted. A dynamic recognition dictionary can be generated efficiently. In the fourth embodiment, the two dictionary generation units 15-1 and 15-2 are used. However, the dynamic recognition dictionary may be regenerated repeatedly until the voice recognition is successful. In that case, you may have three or more dictionary production | generation parts.
上述したように、本実施形態によれば、頭出し再生位置を適切に特定でき、文書書き起こし効率を高めることができる。例えば、確定した仮名テキストに続く録音音声の再生位置や、確認のために聴き直しする際の録音音声の再生位置等を適切に特定でき、文書書き起こし効率を高めることができる。例えば、本実施形態では、録音音声の手動書き起こしに際し、確定した仮名テキスト続く録音音声の繰り返し再生位置を適切に求めるために、確定した書き起こし単位の仮名テキストから1以上の認識語彙を単位とした動的認識辞書を生成し、生成された動的認識辞書を利用して録音音声のワードスポッティングをして手動書き起こしで確定したテキストに続く録音音声の再生位置を特定する。また、本実施形態では、ワードスポッティング対象の1認識語彙が短いモーラ数のとき、ワードスポッティング精度を高くできないため、1認識語彙が短い場合は直前に成功した認識結果を含める形でワードスポッティング対象の語彙のモーラ数を所定以上長くする。したがって、モーラ数が多ければ精度が上がる。また、ワードスポッティングのモーラ数を増やしても位置特定ができない場合はさらに直前の認識結果を含めてもよい。 As described above, according to the present embodiment, it is possible to appropriately specify the cueing reproduction position, and it is possible to improve the document transcription efficiency. For example, it is possible to appropriately specify the playback position of the recorded voice following the confirmed kana text, the playback position of the recorded voice when listening again for confirmation, and the document transcription efficiency can be improved. For example, in the present embodiment, in order to appropriately obtain the repeated playback position of the recorded voice subsequent to the confirmed kana text when manually transcribing the recorded voice, one or more recognized vocabulary words are used as a unit from the kana text of the determined transcription unit. The generated dynamic recognition dictionary is generated, the recorded voice is spotted using the generated dynamic recognition dictionary, and the playback position of the recorded voice following the text determined by manual transcription is specified. Also, in this embodiment, when one recognition vocabulary subject to word spotting has a short number of mora, the word spotting accuracy cannot be increased. Therefore, when one recognition vocabulary is short, the recognition result of the word spotting subject including the last successful recognition result is included. Increase the number of mora in the vocabulary by a predetermined amount or more. Therefore, the accuracy increases as the number of mora increases. Further, if the position cannot be specified even if the number of mora for word spotting is increased, the immediately previous recognition result may be included.
本実施形態によれば、例えば手動書き起こし、及び自動書き起こし修正部分の手動書き起こしにおける、録音音声の自動再生、自動停止、話速変換機能等の制御に適用することができる。 According to the present embodiment, for example, it can be applied to control of automatic reproduction of recorded sound, automatic stop, speech speed conversion function, etc. in manual transcription and manual transcription of an automatic transcription correction portion.
以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、上述した各実施例の一部又は全部を組み合わせることも可能である。 Although the embodiments have been described in detail above, the invention is not limited to the specific embodiments, and various modifications and changes can be made within the scope described in the claims. Moreover, it is also possible to combine a part or all of each Example mentioned above.
なお、以上の実施例に関し、更に以下の付記を開示する。
(付記1)
音声データを格納する音声データ格納部と、
頭出し再生位置から前記音声データを再生する音声再生部と、
音声再生部により再生された前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成するテキスト生成部と、
前記テキスト生成部から得られる書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成する辞書生成部と、
前記辞書生成部により得られる前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出する位置情報抽出部と、
前記位置情報抽出部により抽出した位置情報から、前記頭出し再生位置を決定する再生位置決定部とを有することを特徴とする情報処理装置。
(付記2)
前記辞書生成部は、
前記認識語彙が、所定のモーラ数以上でない場合に、直前に成功した認識結果に対応する認識語彙と結合して、認識語彙のモーラ数を長くすることを特徴とする付記1に記載の情報処理装置。
(付記3)
前記辞書生成部は、
前記認識語彙に対する音声認識ができなかった場合に、直前の認識語彙と結合することを特徴とすることを特徴とする付記1又は2に記載の情報処理装置。
(付記4)
前記辞書生成部は、
前記テキスト生成部から得られる前記書き起こし単位の仮名テキストと、前記位置情報抽出部により得られる前記音声データの位置情報とを用いて前記動的認識辞書を生成することを特徴とする付記1乃至3の何れか1項に記載の情報処理装置。
(付記5)
前記辞書生成部は、
前記認識語彙に対する前記音声データの位置情報が確定していない場合に、直前の認識語彙と結合することを特徴とする付記4に記載の情報処理装置。
(付記6)
前記頭出し再生位置を決定するためのモードの指定を受け付けるモード指定部と、
前記モード指定部により指定された確認モードに応じて、現在の書き起こし単位の先頭又は終端位置を再生位置として選択する再生位置選択部とを有することを特徴とする付記1乃至5の何れか1項に記載の情報処理装置。
(付記7)
前記辞書生成部は、
前記音声認識が失敗した場合に、前記音声認識に用いた動的認識辞書を異なる条件で再生成し、再生成した動的認識辞書を用いて、再度音声認識させることを特徴とする付記1乃至6の何れか1項に記載の情報処理装置。
(付記8)
前記音声データを所定フレーム単位で解析して音響的特徴量を抽出する特徴量抽出部を有し、
前記位置情報抽出部は、
前記特徴量抽出部により得られる音響的特徴量と、前記動的認識辞書とを用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出することを特徴とする付記1乃至7の何れか1項に記載の情報処理装置。
(付記9)
情報処理装置が、
頭出し再生位置から音声データを再生し、
再生した前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成し、
生成した前記書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成し、
生成した前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出し、
抽出した前記音声データの位置情報から、前記頭出し再生位置を決定する、ことを特徴とする書き起こし支援方法。
(付記10)
頭出し再生位置から音声データを再生し、
再生した前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成し、
生成した前記書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成し、
生成した前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出し、
抽出した前記音声データの位置情報から、前記頭出し再生位置を決定する、処理をコンピュータに実行させる書き起こし支援プログラム。
In addition, the following additional remarks are disclosed regarding the above Example.
(Appendix 1)
An audio data storage unit for storing audio data;
An audio playback unit for playing back the audio data from the cue playback position;
A text generation unit that generates a kana text in a transcription unit from a kana text input corresponding to the audio data reproduced by the audio reproduction unit;
A dictionary generation unit that generates a dynamic recognition dictionary in units of one or more recognition vocabularies from kana text in a transcription unit obtained from the text generation unit;
A position information extraction unit that extracts position information of the voice data corresponding to the recognition vocabulary by voice recognition using the dynamic recognition dictionary obtained by the dictionary generation unit;
An information processing apparatus comprising: a reproduction position determination unit that determines the cue reproduction position from position information extracted by the position information extraction unit.
(Appendix 2)
The dictionary generation unit
The information processing according to
(Appendix 3)
The dictionary generation unit
3. The information processing apparatus according to
(Appendix 4)
The dictionary generation unit
The dynamic recognition dictionary is generated using the kana text of the transcription unit obtained from the text generation unit and the position information of the voice data obtained by the position information extraction unit. 4. The information processing apparatus according to any one of 3.
(Appendix 5)
The dictionary generation unit
The information processing apparatus according to appendix 4, wherein when the position information of the voice data with respect to the recognized vocabulary is not fixed, the information is combined with the immediately preceding recognized vocabulary.
(Appendix 6)
A mode designation unit for accepting designation of a mode for determining the cue playback position;
Any one of
(Appendix 7)
The dictionary generation unit
(Appendix 8)
A feature amount extraction unit that extracts the acoustic feature amount by analyzing the audio data in a predetermined frame unit;
The position information extraction unit
(Appendix 9)
Information processing device
Play audio data from the cue playback position,
Generate kana text in the transcription unit from the kana text input corresponding to the reproduced voice data,
Generating a dynamic recognition dictionary with one or more recognition vocabulary as a unit from the generated kana text of the transcription unit;
Extracting position information of the speech data corresponding to the recognition vocabulary by speech recognition using the generated dynamic recognition dictionary,
A transcription support method, wherein the cue playback position is determined from the extracted position information of the audio data.
(Appendix 10)
Play audio data from the cue playback position,
Generate kana text in the transcription unit from the kana text input corresponding to the reproduced voice data,
Generating a dynamic recognition dictionary with one or more recognition vocabulary as a unit from the generated kana text of the transcription unit;
Extracting position information of the speech data corresponding to the recognition vocabulary by speech recognition using the generated dynamic recognition dictionary,
A transcription support program for causing a computer to execute processing for determining the cue playback position from the extracted position information of the audio data.
10 情報処理装置
11,42,56 記憶部
11a,42a,56a 音声データ格納部
12,55 音声再生部
13,52 入力部
14,53 テキスト生成部
15,43 辞書生成部
16,44 位置情報抽出部
17,54 再生位置決定部
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 主記憶装置
26 CPU
27 ネットワーク接続装置
28 記録媒体
30 情報処理システム
31 サーバ
32 クライアント端末
41,51 通信制御部
61 特徴量抽出部
71 書き起こし単位結合部
72 動的認識辞書生成部
81 モード指定部
82 再生位置選択部
DESCRIPTION OF
27
Claims (8)
頭出し再生位置から前記音声データを再生する音声再生部と、
音声再生部により再生された前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成するテキスト生成部と、
前記テキスト生成部から得られる書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成する辞書生成部と、
前記辞書生成部により得られる前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出する位置情報抽出部と、
前記位置情報抽出部により抽出した位置情報から、前記頭出し再生位置を決定する再生位置決定部とを有することを特徴とする情報処理装置。 An audio data storage unit for storing audio data;
An audio playback unit for playing back the audio data from the cue playback position;
A text generation unit that generates a kana text in a transcription unit from a kana text input corresponding to the audio data reproduced by the audio reproduction unit;
A dictionary generation unit that generates a dynamic recognition dictionary in units of one or more recognition vocabularies from kana text in a transcription unit obtained from the text generation unit;
A position information extraction unit that extracts position information of the voice data corresponding to the recognition vocabulary by voice recognition using the dynamic recognition dictionary obtained by the dictionary generation unit;
An information processing apparatus comprising: a reproduction position determination unit that determines the cue reproduction position from position information extracted by the position information extraction unit.
前記認識語彙が、所定のモーラ数以上でない場合に、直前に成功した認識結果に対応する認識語彙と結合して、認識語彙のモーラ数を長くすることを特徴とする請求項1に記載の情報処理装置。 The dictionary generation unit
2. The information according to claim 1, wherein when the recognized vocabulary is not equal to or greater than a predetermined number of mora, the number of mora of the recognized vocabulary is increased by combining with a recognized vocabulary corresponding to the immediately succeeded recognition result. Processing equipment.
前記テキスト生成部から得られる前記書き起こし単位の仮名テキストと、前記位置情報抽出部により得られる前記音声データの位置情報とを用いて前記動的認識辞書を生成することを特徴とする請求項1又は2に記載の情報処理装置。 The dictionary generation unit
2. The dynamic recognition dictionary is generated by using the kana text of the transcription unit obtained from the text generation unit and the position information of the voice data obtained by the position information extraction unit. Or the information processing apparatus of 2.
前記モード指定部により指定された確認モードに応じて、現在の書き起こし単位の先頭又は終端位置を再生位置として選択する再生位置選択部とを有することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 A mode designation unit for accepting designation of a mode for determining the cue playback position;
4. A playback position selection unit that selects a start or end position of a current transcription unit as a playback position in accordance with the confirmation mode specified by the mode specification unit. The information processing apparatus according to item 1.
前記音声認識が失敗した場合に、前記音声認識に用いた動的認識辞書を異なる条件で再生成し、再生成した動的認識辞書を用いて、再度音声認識させることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。 The dictionary generation unit
The dynamic recognition dictionary used for the speech recognition is regenerated under different conditions when the speech recognition fails, and the speech recognition is performed again using the regenerated dynamic recognition dictionary. 5. The information processing apparatus according to any one of items 4 to 4.
前記位置情報抽出部は、
前記特徴量抽出部により得られる音響的特徴量と、前記動的認識辞書とを用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。 A feature amount extraction unit that extracts the acoustic feature amount by analyzing the audio data in a predetermined frame unit;
The position information extraction unit
The position information of the voice data corresponding to the recognition vocabulary is extracted by voice recognition using the acoustic feature quantity obtained by the feature quantity extraction unit and the dynamic recognition dictionary. The information processing apparatus according to any one of 1 to 5.
頭出し再生位置から音声データを再生し、
再生した前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成し、
生成した前記書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成し、
生成した前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出し、
抽出した前記音声データの位置情報から、前記頭出し再生位置を決定する、ことを特徴とする書き起こし支援方法。 Information processing device
Play audio data from the cue playback position,
Generate kana text in the transcription unit from the kana text input corresponding to the reproduced voice data,
Generating a dynamic recognition dictionary with one or more recognition vocabulary as a unit from the generated kana text of the transcription unit;
Extracting position information of the speech data corresponding to the recognition vocabulary by speech recognition using the generated dynamic recognition dictionary,
A transcription support method, wherein the cue playback position is determined from the extracted position information of the audio data.
再生した前記音声データに対応して入力された仮名テキストから書き起こし単位の仮名テキストを生成し、
生成した前記書き起こし単位の仮名テキストから、1以上の認識語彙を単位とした動的認識辞書を生成し、
生成した前記動的認識辞書を用いた音声認識により、前記認識語彙に対応する前記音声データの位置情報を抽出し、
抽出した前記音声データの位置情報から、前記頭出し再生位置を決定する、処理をコンピュータに実行させる書き起こし支援プログラム。 Play audio data from the cue playback position,
Generate kana text in the transcription unit from the kana text input corresponding to the reproduced voice data,
Generating a dynamic recognition dictionary with one or more recognition vocabulary as a unit from the generated kana text of the transcription unit;
Extracting position information of the speech data corresponding to the recognition vocabulary by speech recognition using the generated dynamic recognition dictionary,
A transcription support program for causing a computer to execute processing for determining the cue playback position from the extracted position information of the audio data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244161A JP6394332B2 (en) | 2014-12-02 | 2014-12-02 | Information processing apparatus, transcription support method, and transcription support program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244161A JP6394332B2 (en) | 2014-12-02 | 2014-12-02 | Information processing apparatus, transcription support method, and transcription support program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016109735A JP2016109735A (en) | 2016-06-20 |
JP6394332B2 true JP6394332B2 (en) | 2018-09-26 |
Family
ID=56123938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014244161A Expired - Fee Related JP6394332B2 (en) | 2014-12-02 | 2014-12-02 | Information processing apparatus, transcription support method, and transcription support program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6394332B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6825485B2 (en) * | 2017-05-23 | 2021-02-03 | 富士通株式会社 | Explanation support program, explanation support method and information processing terminal |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04161997A (en) * | 1990-10-24 | 1992-06-05 | Ricoh Co Ltd | Voice recognition device |
JP2004191616A (en) * | 2002-12-11 | 2004-07-08 | Canon Inc | Automatic document creating apparatus |
JP4736478B2 (en) * | 2005-03-07 | 2011-07-27 | 日本電気株式会社 | Voice transcription support device, method and program thereof |
JP2014142501A (en) * | 2013-01-24 | 2014-08-07 | Toshiba Corp | Text reproduction device, method and program |
JP2014202848A (en) * | 2013-04-03 | 2014-10-27 | 株式会社東芝 | Text generation device, method and program |
JP6280312B2 (en) * | 2013-05-13 | 2018-02-14 | キヤノン株式会社 | Minutes recording device, minutes recording method and program |
-
2014
- 2014-12-02 JP JP2014244161A patent/JP6394332B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016109735A (en) | 2016-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
US11145292B2 (en) | Method and device for updating language model and performing speech recognition based on language model | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JP2016057986A (en) | Voice translation device, method, and program | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
CN108630200B (en) | Voice keyword detection device and voice keyword detection method | |
JP2009139862A (en) | Voice recognition apparatus and computer program | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
WO2018079294A1 (en) | Information processing device and information processing method | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
CN113948062A (en) | Data conversion method and computer storage medium | |
JP6394332B2 (en) | Information processing apparatus, transcription support method, and transcription support program | |
US20220399030A1 (en) | Systems and Methods for Voice Based Audio and Text Alignment | |
JP2011007862A (en) | Voice recognition device, voice recognition program and voice recognition method | |
KR102300303B1 (en) | Voice recognition considering utterance variation | |
TW202011384A (en) | Speech correction system and speech correction method | |
JP6003127B2 (en) | Language model creation program and language model creation device | |
JP2019095526A (en) | Speech processing program, speech processing device and speech processing method | |
JP2011215494A (en) | Speech recognition device, speech recognition method and speech recognition program | |
KR20240085837A (en) | Method for speaking feedback using speech recognition and apparatus using the same | |
JP2014235263A (en) | Speech recognition device and program | |
JP2022055887A (en) | Terminal device, voice recognition method, voice recognition program | |
JP5088314B2 (en) | Voice response device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180731 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180813 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6394332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |