JP2016099515A - Voice recognition error correction device - Google Patents

Voice recognition error correction device Download PDF

Info

Publication number
JP2016099515A
JP2016099515A JP2014236949A JP2014236949A JP2016099515A JP 2016099515 A JP2016099515 A JP 2016099515A JP 2014236949 A JP2014236949 A JP 2014236949A JP 2014236949 A JP2014236949 A JP 2014236949A JP 2016099515 A JP2016099515 A JP 2016099515A
Authority
JP
Japan
Prior art keywords
transition
output
word
sentence
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014236949A
Other languages
Japanese (ja)
Other versions
JP6406988B2 (en
Inventor
庄衛 佐藤
Shoe Sato
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014236949A priority Critical patent/JP6406988B2/en
Publication of JP2016099515A publication Critical patent/JP2016099515A/en
Application granted granted Critical
Publication of JP6406988B2 publication Critical patent/JP6406988B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognition error correction device capable of more accurately correcting a voice recognition error even if a similar expression is included in a document text.SOLUTION: A voice recognition error correction device 800 includes a preprocessing unit 811. The preprocessing unit 811 calculates distance representing similarity between a plurality of sequences about sequences of language elements included in the document text stored in a document text storage part, and detects similar sequences as to whether the calculated distance falls below a prescribed threshold. When the similar sequences are detected, warning information is outputted, and a correction proposal for solving similarity by operating the document test about at least any of the detected similar sequences is outputted. Also, the document text is corrected according to an instruction inputted from the outside. The document text preprocessed in this way is used to construct a finite state transducer.SELECTED DRAWING: Figure 14

Description

本発明は、音声認識誤り修正装置に関する。   The present invention relates to a speech recognition error correction apparatus.

近年、テレビ等の番組における字幕テキストの付与を自動的に行う技術について研究されている。
非特許文献1には、生放送のニュース番組への字幕付与を目的としたアプローチの一つに、スペインのCARTVの例が記載されている。非特許文献1に記載されたシステムは、ニュース項目とその順番、読み原稿が与えられていることを前提とし、読み原稿の単語を一列の音素列とし、入力音声で強制アライメントを施して原稿の読み上げ部分を特定している。強制アライメントとは発話内容の音素列が与えられたときに、各音素と発話音声区間の対応を得るアルゴリズムである。このシステムでは、原稿のどの部分を読んでいるのかを音素単位で特定できるため、早期に字幕文を確定して番組映像と整合性の高い字幕を出力することができる。
In recent years, research has been conducted on techniques for automatically providing subtitle texts in programs such as television.
Non-Patent Document 1 describes an example of Spanish CARTV as one of the approaches for providing captions to a live broadcast news program. The system described in Non-Patent Document 1 is based on the premise that news items, their order, and a reading manuscript are given. The reading part is specified. The forced alignment is an algorithm for obtaining correspondence between each phoneme and a speech voice section when a phoneme string of speech content is given. In this system, it is possible to specify which part of the original is being read in units of phonemes, so that it is possible to determine a caption sentence at an early stage and output a caption with high consistency with a program video.

また、特許文献1には、単語単位で認識単語列と読み原稿を比較して音声認識誤りを修正する技術が開示されている。特許文献1に記載されたテキスト修正装置では、長さNの単語連鎖ブロックで、音声認識結果の単語列と原稿内の単語列を比較することを特徴としている。   Patent Document 1 discloses a technique for correcting a speech recognition error by comparing a recognized word string and a read original in units of words. The text correction device described in Patent Document 1 is characterized in that a word string in a speech recognition result is compared with a word string in a document in a word chain block of length N.

特開2012−128188号公報JP 2012-128188 A

J. E. Garcia, A. Ortega, E. Lleida, T. Lozano, E. Bernues, D. Sanchez, Aragon Inst. for Eng. Res.,Univ. of Zaragoza,Zaragoza,"Audio and text synchronization for TV news sub-titling based on Automatic Speech Recognition",BMSB '09.,IEEE International Symposium on Broadband Multimedia Systems and Broadcasting,2009年JE Garcia, A. Ortega, E. Lleida, T. Lozano, E. Bernues, D. Sanchez, Aragon Inst. For Eng. Res., Univ. Of Zaragoza, Zaragoza, "Audio and text synchronization for TV news sub-titling based on Automatic Speech Recognition ", BMSB '09., IEEE International Symposium on Broadband Multimedia Systems and Broadcasting, 2009

非特許文献1に記載されたシステムが採用するアルゴリズムでは、発話音声と音素列に不一致がある場合には著しく精度が低下するという問題がある。   The algorithm employed by the system described in Non-Patent Document 1 has a problem that the accuracy is significantly lowered when there is a discrepancy between the uttered speech and the phoneme string.

一方、ニュース番組の多くは、ニュース項目とその順番を事前に特定することは難しい。番組の放送中にニュース項目の順序が変更されることも多い。非特許文献1に記載されたCARTVの例では、ニュース編集コンピューターシステム(NRCS)と連携した大規模なシステムを構築しているため、ニュース項目や項目順が更新される度にアライメントに用いるための音素列を更新する手法を取っている。   On the other hand, in many news programs, it is difficult to specify news items and their order in advance. The order of news items is often changed during the broadcast of a program. In the example of CARTV described in Non-Patent Document 1, since a large-scale system linked with a news editing computer system (NRCS) is constructed, it is used for alignment whenever a news item or item order is updated. The phoneme sequence is updated.

しかし、非特許文献1がそのような手法を取っていても、NRCSでの管理に基づく音素列の更新が間に合わなかったり、原稿の読み飛ばしや言い換えがあったりした場合には、適切なアライメントができなくなる。そこで、アライメント位置を修正するために、番組進行の目安となるラップタイムや、インサート映像の再生タイミングを取得して利用しており、複雑で大規模なシステムを構築することが必要となっている。さらに、番組内には、インサート映像のインタビューなど、NRCSでは発話内容を管理していない部分もある。したがって、そのような部分でアライメントが進行しないようにするため、上記のインサート映像を管理して、その再生情報をもとにアライメントヘの入力を停止するなどといった複雑な制御も必要となる。   However, even if Non-Patent Document 1 adopts such a method, if the phoneme string update based on the management by NRCS is not in time, or if the document is skipped or paraphrased, appropriate alignment is performed. become unable. Therefore, in order to correct the alignment position, it is necessary to construct a complicated and large-scale system by acquiring and using a lap time that is a guide for program progression and the playback timing of the insert video. In addition, there are parts of the program where the content of utterances is not managed by the NRCS, such as an interview of an insert video. Therefore, in order to prevent the alignment from progressing in such a portion, complicated control such as managing the above-described insert video and stopping the input to the alignment based on the reproduction information is also required.

例えば、自動字幕制作システムを必要とする地方放送局においては、このような複雑なシステムの構築と維持は困難であり、より簡易なシステムが求められる。   For example, in a local broadcasting station that requires an automatic caption production system, it is difficult to construct and maintain such a complicated system, and a simpler system is required.

また、特許文献1の技術では、上記のような複雑なシステムの構成を必要とはしないものの、認識単語仮説列の文境界を推定していないため、不適切な原稿区間と音声認識結果の単語列とを照合してしまう結果、文境界やブロック境界に認識誤りがあったり、原稿の読み飛ばしや言い換えがあったり、原稿にない発話の追加があったりした場合、ブロック境界において、単語が欠落したり、同じ単語が2回出力されるなどの自動修正の誤りが生じる。このような自動修正誤りは、音声認識結果による単語仮説列の境界(文境界)が未知であるかぎり、音声認識結果と原稿との対応をとる区間の単位を文や他の単位としても同様に生じる。   Further, although the technique of Patent Document 1 does not require the complicated system configuration as described above, it does not estimate the sentence boundary of the recognition word hypothesis sequence, so that an inappropriate manuscript section and words of speech recognition result As a result of collating with the column, if there is a recognition error at the sentence boundary or block boundary, skipping or paraphrasing the manuscript, or adding an utterance that is not in the manuscript, the word is missing at the block boundary Or automatic correction errors such as the same word being output twice. Such an automatic correction error is the same even if the unit of the section in which the speech recognition result corresponds to the manuscript is set as a sentence or other unit as long as the boundary (sentence boundary) of the word hypothesis sequence based on the speech recognition result is unknown. Arise.

上記の課題を解決するために、放送のための原稿に基づいて、認識誤りをも許容する(つまり誤った認識結果が入力されても状態遷移可能とする)有限状態トランスデューサーを予め構築しておき、その状態遷移定義を用いて尤度を計算することにより認識誤りを修正することも考えられる。しかしながら、そのように認識誤りをも許容する有限状態トランスデューサーを用いて正しく現状態を推定するためには、所定の前提条件を満たす必要がある。その前提条件とは、原稿内に互いに類似する系列(例えば単語の系列)が存在しないことである。仮に類似の系列が存在していると、その有限状態トランスデューサーは、誤った認識結果が入力されても状態遷移可能としているが故に、認識誤りを正しく修正できない可能性がある。その結果、間違った原稿を字幕テキストとして送出してしまうことが起こり得る。字幕テキストを放送に用いる場合には、その正確さを低下させる要因となる。   In order to solve the above problems, a finite state transducer that allows recognition errors (that is, allows state transition even if an incorrect recognition result is input) is constructed in advance based on a broadcast document. It is also possible to correct the recognition error by calculating the likelihood using the state transition definition. However, in order to correctly estimate the current state using a finite state transducer that also allows recognition errors, it is necessary to satisfy a predetermined precondition. The precondition is that there are no similar sequences (for example, word sequences) in the document. If a similar sequence exists, the finite state transducer may be able to make a state transition even if an incorrect recognition result is input, so that the recognition error may not be corrected correctly. As a result, it is possible that the wrong manuscript is transmitted as subtitle text. When subtitle text is used for broadcasting, it becomes a factor of reducing the accuracy.

本発明は、上記のような事情を考慮して為されたものであり、より正確に音声認識誤りを修正することのできる音声認識誤り修正装置を提供するものである。
また特に、本発明は、音声認識誤りを修正する際に、有限状態トランスデューサーにおけるノードの推定をより正確に行うことのできる音声認識誤り修正装置を提供するものである。
The present invention has been made in view of the above circumstances, and provides a speech recognition error correction apparatus that can correct speech recognition errors more accurately.
In particular, the present invention provides a speech recognition error correcting apparatus that can more accurately estimate a node in a finite state transducer when correcting a speech recognition error.

上記の課題を解決するため、本発明の一態様による音声認識誤り修正装置は、原稿テキストを記憶する原稿テキスト記憶部と、前記原稿テキスト記憶部に記憶された前記原稿テキストに含まれる言語要素の系列に関して、複数の前記系列間の類似度を表す距離を算出するとともに、算出された前記距離が所定の閾値を下回るか否かによって類似の系列を検出し、類似の系列が検出された場合には警告情報を出力し、検出された類似の系列のうちの少なくともいずれかについて前記原稿テキストを操作することによって類似を解消するための修正の提案を出力するとともに、外部から入力された指示にしたがって前記原稿テキストを修正する前処理部と、前記原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、前記原稿探索部によって求められた前記確定出力を出力する出力部と、を具備する。
なお、言語単位とは、具体的には、単語や、文字や、音素等である。
In order to solve the above problems, a speech recognition error correction apparatus according to an aspect of the present invention includes a document text storage unit that stores document text, and language elements included in the document text stored in the document text storage unit. When a distance representing the similarity between a plurality of series is calculated for a series, a similar series is detected based on whether the calculated distance is less than a predetermined threshold, and a similar series is detected Outputs warning information, outputs a suggestion of correction for eliminating the similarity by manipulating the manuscript text for at least one of the detected similar sequences, and according to instructions input from the outside A preprocessing unit for correcting the manuscript text and a word corresponding to the manuscript text while sequentially receiving words inputted as a speech recognition result Information regarding the state of the finite state transducer that makes a transition and that makes a state transition while accepting an error in a word included in the speech recognition result, and a transition source state with respect to the state transition Finite state transducer information storage unit for storing information including transition destination state, input symbol, output symbol, and transition weight, and node data for storing a score representing the likelihood of the state in the finite state transducer A storage unit and an input of a recognition word that is a speech recognition result corresponding to the original text are received from the outside, and a score at the time for each state in the finite state transducer according to the received recognition word And the node data storage unit using the calculated score When a node data update unit to be updated and an activation signal indicating the start of processing are received from the outside, the maximum likelihood node at that time is determined by referring to the node data storage unit, and the finite state transducer information storage unit By referring back to the node data storage unit, trace back processing up to a predetermined time when the state transition has been confirmed by tracing back the state transition to the maximum likelihood node, and the path of the state transition subjected to the trace back processing And an error score according to the ratio of the state transition related to the error to the path is calculated for the path that is the output candidate, and the degree of error is calculated based on the calculated error score. The document search unit that determines the output candidate of the path as a definite output when the value is smaller than the predetermined threshold, and the document search unit. And an output unit for outputting the determined output obtained as described above.
The language unit is specifically a word, a character, a phoneme, or the like.

また、本発明の一態様は、上記の音声認識誤り修正装置において、前記原稿テキストは、複数の項目で構成されており、前記前処理部は、前記項目間の前記距離が所定の閾値を下回る場合には、項目が重複していることを示す前記警告情報を出力する、ことを特徴とする。   According to another aspect of the present invention, in the above speech recognition error correction apparatus, the document text includes a plurality of items, and the preprocessing unit has the distance between the items below a predetermined threshold. In this case, the warning information indicating that the items are duplicated is output.

また、本発明の一態様は、上記の音声認識誤り修正装置において、前記原稿テキストは、複数の文を含んで構成されており、前記前処理部は、前記文間の前記距離が所定の閾値を下回る場合には、文が類似していることを示す前記警告情報を出力するとともに、類似している前記文のいずれかを、当該文の前の文または当該文の後の文に連結する修正の提案を出力する、ことを特徴とする。   According to another aspect of the present invention, in the above speech recognition error correction apparatus, the document text includes a plurality of sentences, and the preprocessing unit is configured such that the distance between the sentences is a predetermined threshold value. When the value is less than, the warning information indicating that the sentence is similar is output, and any of the similar sentences is connected to the sentence before the sentence or the sentence after the sentence. A correction proposal is output.

また、本発明の一態様は、上記の音声認識誤り修正装置において、前記原稿テキストは、複数の文を含んで構成されており、前記文は、1つ以上のチャンクから構成されており、前記前処理部は、文の先頭に位置する文頭チャンク間の前記距離が所定の閾値を下回る場合には、文頭チャンクが類似していることを示す前記警告情報を出力するとともに、類似している前記文頭チャンクの少なくともいずれかを後方に延長する修正の提案を出力する、ことを特徴とする。   According to another aspect of the present invention, in the above speech recognition error correction apparatus, the document text includes a plurality of sentences, and the sentences include one or more chunks. The pre-processing unit outputs the warning information indicating that the head chunks are similar when the distance between the head chunks located at the head of the sentence is below a predetermined threshold, and the similar It is characterized by outputting a proposal for a modification that extends at least one of the head chunks backward.

また、本発明の一態様は、上記の音声認識誤り修正装置において、前記原稿テキストは、複数の文を含んで構成されており、前記前処理部は、前記文に含まれる単語数が所定の閾値より小さい場合には、文が短すぎることを示す前記警告情報を出力する、ことを特徴とする。   According to another aspect of the present invention, in the above speech recognition error correction apparatus, the document text includes a plurality of sentences, and the preprocessing unit has a predetermined number of words included in the sentence. When the value is smaller than the threshold value, the warning information indicating that the sentence is too short is output.

本発明によれば、前処理部が原稿内の類似表現(類似の系列)を検出し、予め解消する。よって、そのように前処理部によって処理された原稿テキストに基づいて生成される有限状態トランスデューサーを用いれば、原稿の探索の際に、状態(ノード)の推定の精度が良くなる。よって、音声認識誤りを修正するときの正確性が増す。   According to the present invention, the preprocessing unit detects similar expressions (similar sequences) in the document and eliminates them in advance. Therefore, when a finite state transducer generated based on the document text processed by the preprocessing unit is used, the accuracy of state (node) estimation is improved when searching for a document. Therefore, accuracy when correcting speech recognition errors is increased.

本発明の実施形態が前提とする音声認識誤り修正装置(方式1)を含むシステムを模式的に示すブロック図である。It is a block diagram which shows typically the system containing the speech recognition error correction apparatus (system 1) on which the embodiment of this invention is a premise. 音声認識誤り修正装置(方式1)のための重み付き有限状態トランスデューサーの構築例を模式的に示す図である。It is a figure which shows typically the construction example of the weighted finite state transducer for a speech recognition error correction apparatus (method 1). 音声認識誤り修正装置(方式1)の構成を模式的に示すブロック図である。It is a block diagram which shows typically the structure of a speech recognition error correction apparatus (method 1). 音声認識誤り修正装置(方式1)によるトレースバック及び原稿分割を説明するための図(その1)である。It is FIG. (1) for demonstrating the trace back and original division by a speech recognition error correction apparatus (method 1). 音声認識誤り修正装置(方式1)によるトレースバック及び原稿分割を説明するための図(その2)である。FIG. 5 is a diagram (part 2) for explaining traceback and document division by the speech recognition error correction apparatus (method 1); 音声認識誤り修正装置(方式1)による処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process by the speech recognition error correction apparatus (method 1). 音声認識誤り修正装置(方式1)に関して重み付き有限状態トランスデューサーで適用できるアルゴリズムの例を示す模式図である。It is a schematic diagram which shows the example of the algorithm applicable with a weighted finite state transducer regarding a speech recognition error correction apparatus (method 1). 本発明の実施形態が前提とする音声認識誤り修正装置(方式2)を含むシステムの構成の概略を示すブロック図である。It is a block diagram which shows the outline of a structure of the system containing the speech recognition error correction apparatus (system 2) on the assumption of embodiment of this invention. 音声認識誤り修正装置(方式2)のためのWFST(重み付き有限状態トランスデューサー)の例を示す状態遷移図である。It is a state transition diagram which shows the example of WFST (weighted finite state transducer) for a speech recognition error correction apparatus (method 2). 音声認識誤り修正装置(方式2)において用いるための特徴を備えたWFSTの例を示す状態遷移図である。It is a state transition diagram which shows the example of WFST provided with the characteristic for using in a speech recognition error correction apparatus (method 2). 音声認識誤り修正装置(方式2)の概略機能構成を示す機能ブロック図である。It is a functional block diagram which shows schematic function structure of a speech recognition error correction apparatus (method 2). 音声認識誤り修正装置(方式2)による処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process by the speech recognition error correction apparatus (method 2). 音声認識誤り修正装置(方式2)による字幕文出力の確定方法の実例を示す概略図である。It is the schematic which shows the example of the confirmation method of the subtitle sentence output by a speech recognition error correction apparatus (method 2). 本発明の第1実施形態による音声認識誤り修正装置の概略機能構成を示すブロック図である。It is a block diagram which shows schematic function structure of the speech recognition error correction apparatus by 1st Embodiment of this invention. 本発明の第2実施形態による音声認識誤り修正装置の概略機能構成を示すブロック図である。It is a block diagram which shows schematic function structure of the speech recognition error correction apparatus by 2nd Embodiment of this invention. 第1実施形態または第2実施形態における前処理部によって検出される重複項目の第1の例を示す概略図である。It is the schematic which shows the 1st example of the duplication item detected by the pre-processing part in 1st Embodiment or 2nd Embodiment. 第1実施形態または第2実施形態における前処理部によって検出される重複項目の第2の例を示す概略図である。It is the schematic which shows the 2nd example of the duplication item detected by the pre-processing part in 1st Embodiment or 2nd Embodiment. 第1実施形態または第2実施形態における前処理部によって検出された文対の例と、その文の一方を他の文と連結させる例を示す概略図である。It is the schematic which shows the example of the sentence pair detected by the pre-processing part in 1st Embodiment or 2nd Embodiment, and the example which connects one of the sentences with another sentence. 第1実施形態または第2実施形態における前処理部によって検出された類似チャンクの例と、それらのチャンクの延長を提案した例を示す概略図である。It is the schematic which shows the example of the similar chunk detected by the pre-processing part in 1st Embodiment or 2nd Embodiment, and the example which proposed extension of those chunks. 第1実施形態または第2実施形態における前処理部が系列間の距離(レーベンシュタイン距離の改良版)を算出するための計算手順を示すプログラム疑似コードである。It is a program pseudo code which shows the calculation procedure for the pre-processing part in 1st Embodiment or 2nd Embodiment to calculate the distance between series (Improved version of Levenshtein distance). 第1実施形態または第2実施形態における前処理部が、上記のプログラムによって、距離を算出したときの実行例を示す概略図である。It is the schematic which shows the example of execution when the pre-processing part in 1st Embodiment or 2nd Embodiment calculates distance by said program.

以下では、まず本発明の実施形態が前提とする2方式の音声認識誤り修正装置について説明し、その後に、本発明の複数の実施形態を説明する。   In the following, a two-type speech recognition error correction apparatus premised on an embodiment of the present invention will be described first, and then a plurality of embodiments of the present invention will be described.

[方式1:前提とする音声認識誤り修正装置の形態]
以下、本形態の音声認識誤り修正装置について詳細に説明する。
図1に示す音声認識誤り修正装置100は、原稿テキスト集合200に含まれる原稿201を読み上げた発話音声を認識する音声認識装置220が出力する認識結果の単語列(認識単語列)を入力として受け付け、予め記憶した対応原稿の単語列を推定することで、認識単語列に含まれる誤りを修正するものである。ここで、音声認識誤り修正装置100が推定処理のために予め記憶した情報は、原稿テキスト集合200を予め読み込んで構築された対応原稿の集合であって、状態を表すノードとノード間の状態遷移を表す枝とをネットワークとして有した重み付き有限状態トランスデューサー(Weighted Finite State Transducers:以下、WFSTという)で表された対応原稿集合である。この音声認識誤り修正装置100は、WFSTのネットワーク上で最良仮説を逐次調べ、WFST上の対応原稿の単語列と認識単語列との編集距離を基準に、全ての単語の入力を待たずに最終最良仮説を近似して部分的に修正結果を逐次確定する。
[Method 1: Assumed form of speech recognition error correction device]
Hereinafter, the speech recognition error correction apparatus of this embodiment will be described in detail.
The speech recognition error correction apparatus 100 shown in FIG. 1 accepts as input a word string (recognition word string) of a recognition result output by the speech recognition apparatus 220 that recognizes the uttered speech read out from the document 201 included in the document text set 200. The error contained in the recognized word string is corrected by estimating the word string of the corresponding document stored in advance. Here, the information stored in advance for the estimation process by the speech recognition error correction apparatus 100 is a set of corresponding manuscripts constructed by reading the manuscript text set 200 in advance, and the state transition between nodes representing the state Is a corresponding manuscript set represented by a weighted finite state transducer (hereinafter referred to as WFST) having a branch representing the network as a network. This speech recognition error correction apparatus 100 sequentially checks the best hypothesis on the WFST network and does not wait for the input of all words based on the edit distance between the word string of the corresponding manuscript on the WFST and the recognized word string. The best hypothesis is approximated and the correction results are partially determined sequentially.

図1に示した例は、地方放送局発のニュース番組に音声認識を用いて字幕を付与する場合に適用するための音声認識誤り修正装置100を含むシステム全体を模式的に示している。このような番組の発話音声は、概ね事前に用意された原稿テキストに基づいているという特徴がある。また、大規模なキー放送局は、音声認識結果に含まれる認識誤りを人手で修正するためのオペレーターを配置しているが、地方放送局は、現状では前記オペレーターを配置することが難しいことから、このような例を示した。本実施形態によれば、地方放送局のオペレーター配置の課題を解決することができる。   The example shown in FIG. 1 schematically shows the entire system including the speech recognition error correction apparatus 100 to be applied when subtitles are given to a news program originated from a local broadcasting station using speech recognition. The utterance voice of such a program is characterized in that it is generally based on a manuscript text prepared in advance. In addition, large-scale key broadcasting stations have operators to manually correct recognition errors included in speech recognition results, but local broadcasters currently have difficulty in locating the operators. An example of this is shown. According to the present embodiment, it is possible to solve the problem of local station operator arrangement.

図1に示す原稿テキスト集合200は、人が話す予定の内容をテキストに書き起こしたものの全体を表している。原稿テキスト集合200は、例えば文、文章、段落といった単語列の区切りの単位や、そのテーマやトピック等の内容分類に応じて、多数の細分化された個別の内容に分けられる。このような個別の内容を、以下では単に原稿と呼ぶ。また、単語列の単位が一例として文であるものとして説明する。
なお、原稿テキスト集合200は、原稿テキスト記憶部に記憶されている。原稿テキスト記憶部は、例えば、磁気ディスク装置や半導体メモリを用いて構成される。
A manuscript text set 200 shown in FIG. 1 represents the whole of a text that is a transcript of what a person plans to speak. The manuscript text set 200 is divided into a number of subdivided individual contents, for example, according to word string delimiter units such as sentences, sentences, paragraphs, and content classifications such as themes and topics. Such individual contents are hereinafter simply referred to as a manuscript. Further, description will be made assuming that the word string unit is a sentence as an example.
The document text set 200 is stored in the document text storage unit. The document text storage unit is configured using, for example, a magnetic disk device or a semiconductor memory.

本実施形態では、例えば下記(A1)〜(A7)の条件を前提としている。
(A1)原稿テキスト集合200内の複数の原稿文が音声認識対象として読まれる。
(A2)例えば1つのニュース項目に関する原稿といっても、いくつかの更新された版(バージョン)が用意されていて、どのバージョンの原稿が何時のニュース番組で読まれるのか事前には分かっていない。
(A3)複数の原稿文がどのような順番で読まれるのか事前には分かっていない。
(A4)原稿テキスト集合200に含まれる原稿文には、読まれないものもある。
(A5)読む人物によっては、原稿通りに読まずに、敢えて言い回しを変えてしまう場合や、言い誤りが生じる場合がある。
(A6)音声認識装置220の認識誤りのため意昧不明になった字幕を送出して視聴者に誤解を与えたり不快にさせたりすることを回避することを大前提とする。そのため、意味不明な認識結果の場合には送出せず、代わりに、事前に編集者により校正され内容が確認されている、発話内容に最も近いと自動推定された原稿(事前原稿)を字幕として送出する。
(A7)インタビュー部分などであって認識結果に対応する原稿が元々存在しない場合、自動推定は不可能なので、元原稿が無いインタビュー部分などについては字幕を送出しない。
In the present embodiment, for example, the following conditions (A1) to (A7) are assumed.
(A1) A plurality of manuscript sentences in the manuscript text set 200 are read as voice recognition targets.
(A2) For example, even if the manuscript is related to one news item, several updated versions (versions) are prepared, and it is not known in advance which version of the manuscript will be read in the news program. .
(A3) The order in which a plurality of manuscript sentences are read is not known in advance.
(A4) Some original texts included in the original text set 200 cannot be read.
(A5) Depending on the person reading, there is a case where the wording is intentionally changed or a wording error occurs without reading the document as it is.
(A6) A major premise is to avoid sending a subtitle that has become unclear due to a recognition error of the voice recognition device 220 to mislead or make the viewer uncomfortable. Therefore, it is not sent in the case of an unknown recognition result, and instead, the subtitle is a manuscript (prior manuscript) that is automatically estimated to be the closest to the utterance content that has been proofread by the editor and confirmed in advance. Send it out.
(A7) If there is no original corresponding to the recognition result in an interview part or the like, automatic estimation is impossible, so no subtitles are transmitted for an interview part without an original.

原稿テキスト集合200は、記者が例えばニュース番組用に入稿した原稿の電子データの集合であって、例えばハードディスク等の一般的な記憶装置やネットワーク上の記憶手段に記憶されている。この原稿テキスト集合200は、対応原稿集合のWFSTを事前に構築するためにも利用される。   The manuscript text set 200 is a set of manuscript electronic data submitted by a reporter for, for example, a news program, and is stored in a general storage device such as a hard disk or a storage means on a network. This document text set 200 is also used to construct a WFST of the corresponding document set in advance.

音声認識装置220は、生の音声データが入力された場合に、隠れマルコフモデル(HMM)による音響モデル、言語モデルを利用して、音声データを認識し、その認識した結果を認識単語列として生成するものである。本実施形態において、音声認識装置220は、特に限定されず、従来公知のものを採用することができる。   When raw speech data is input, the speech recognition device 220 recognizes speech data using an acoustic model or language model based on a hidden Markov model (HMM), and generates the recognized result as a recognition word string. To do. In the present embodiment, the voice recognition device 220 is not particularly limited, and a conventionally known device can be adopted.

なお、前記(A2)の条件に示す通り、各ニュース項目に対して複数のバージョンの原稿が入稿されており、どのバージョンをどの順番で放送するのかは事前に確定できない。そのような状況で、音声認識装置220は、音声認識を行い、その発話音声に対して、そもそも、対応する原稿が存在するのか否かを即座に調べなければならない。そのため、音声認識に用いる言語モデルは、高精度に音声認識結果と原稿との対応をとるために、原稿テキスト集合200を用いて適応化しておき、原稿通りに読み上げた場合の認識精度が高くなるようにしておくことが好ましい。   As shown in the condition (A2), a plurality of versions of a manuscript have been submitted for each news item, and it is not possible to determine in advance which version will be broadcast in which order. In such a situation, the speech recognition apparatus 220 must perform speech recognition and immediately check whether or not a corresponding document exists for the uttered speech. Therefore, the language model used for speech recognition is adapted using the document text set 200 in order to obtain a high-accuracy correspondence between the speech recognition result and the document, and the recognition accuracy when it is read out as it is according to the document becomes high. It is preferable to do so.

トランスデューサー構築装置240は、音声認識誤り修正装置100で利用する対応原稿の集合(対応原稿集合)としてWFSTを構築するものである。
トランスデューサー構築装置240は、音声認識の対象となる読み上げ原稿、つまり、原稿テキスト集合200に含まれる原稿文から、音声認識誤り修正装置100で利用するWFSTを事前に構築する。WFSTは、入力シンボルと出力シンボル、遷移重みを有する有限状態機械であり、単語と文などの異なる粒度の入出力を効率よく扱うことができる。このWFSTの構築については後記する。
The transducer construction device 240 constructs a WFST as a collection of corresponding originals (corresponding original collection) used in the speech recognition error correction apparatus 100.
The transducer construction device 240 constructs in advance a WFST to be used by the speech recognition error correction device 100 from the read-out original that is the target of speech recognition, that is, from the original text included in the original text set 200. WFST is a finite state machine having input symbols, output symbols, and transition weights, and can efficiently handle input / output of different granularities such as words and sentences. The construction of this WFST will be described later.

音声認識誤り修正装置100は、音声認識装置220から認識結果の単語が入力される度に、WFSTを用いて、入力単語を受理可能な遷移を求めてそのスコアを計算し、累積スコアに対する閾値を用いて枝刈りを行いながら、従来公知のビタビアルゴリズム(Viterbi Algorithm)による探索(ビタビ探索)を用いることを前提としている。なお、ビタビアルゴリズムとは、受信系列に対して送信符号に最も近い、即ち尤度を最大にする符号系列を推定する際に、最大尤度の符号系列を、トレリス線図を用いて効果的に探索する方法である。   Each time a recognition result word is input from the speech recognition device 220, the speech recognition error correction device 100 uses WFST to obtain a transition that can accept the input word, calculates its score, and sets a threshold for the cumulative score. It is assumed that a search (Viterbi search) using a conventionally known Viterbi algorithm is used while performing pruning. Note that the Viterbi algorithm is a method that uses a trellis diagram to effectively calculate a code sequence having the maximum likelihood when estimating a code sequence that is closest to a transmission code with respect to a received sequence, that is, that maximizes the likelihood. It is a method of searching.

通常のビタビ探索では、全ての入力が観測されてから、最もスコアが良くなるパスをトレースバックして最良仮説を出力する。そのため、通常の探索方法では、全ての入力が観測され終わる前に、古い入力から順に逐次修正結果を出力するといったことはできない。例えば、テレビ放送番組の放送音声を認識した結果から字幕を制作してリアルタイムでテレビ画面の画像に重畳する場合を想定すると、通常のビタビ探索による最尤系列は番組の最後まで単語を入力しないと確定することができない。これでは番組が終了してしまうことになるので、このような運用に対して通常のビタビ探索は不適である。   In normal Viterbi search, after all the inputs are observed, the path with the best score is traced back and the best hypothesis is output. Therefore, in the normal search method, it is not possible to output the correction results sequentially from the oldest input before all the inputs are observed. For example, assuming that the subtitles are produced from the result of recognizing the broadcast sound of a TV broadcast program and superimposed on the image of the TV screen in real time, the maximum likelihood sequence by the normal Viterbi search must input words until the end of the program It cannot be confirmed. This will end the program, so normal Viterbi search is not suitable for such operations.

一方、音声認識誤り修正装置100は、ビタビ探索を用いつつも、最尤系列を逐次近似してトレースバックする。すなわち、予め定められた処理開始条件が満たされる度に、その時点で最もスコアが良くなるパスをトレースバックして、確定できる出力遷移を決定するので、修正結果を逐次出力することができる。ここでトレースバックされるパスは、最良仮説の近似であるが、各出力遷移に対応する入力単語列と、原稿の単語列との編集距離を信頼度の基準にして同パスを確定するか否かを決定して近似精度の向上をはかる。なお、詳細は後記する。   On the other hand, the speech recognition error correction apparatus 100 successively approximates the maximum likelihood sequence and traces back using the Viterbi search. That is, every time a predetermined processing start condition is satisfied, a path with the best score at that time is traced back and an output transition that can be determined is determined, so that correction results can be output sequentially. The path traced back here is an approximation of the best hypothesis, but whether or not the path is determined based on the reliability of the edit distance between the input word string corresponding to each output transition and the word string of the manuscript. To improve the approximation accuracy. Details will be described later.

[構築されたWFSTの例]
図2は、トランスデューサー構築装置240で構築されたWFSTの例である。WFSTは、状態を表すノードと、状態遷移を表す枝と、を有する。なお、状態遷移のことを単に遷移という場合もある。本実施形態では、入力シンボルを単語、出力シンボルを所定の単語列とする、WFSTを構築する。所定の単語列を文として説明する。
[Example of constructed WFST]
FIG. 2 shows an example of WFST constructed by the transducer construction device 240. The WFST has a node representing a state and a branch representing a state transition. Note that state transition may be simply referred to as transition. In the present embodiment, a WFST is constructed in which an input symbol is a word and an output symbol is a predetermined word string. A predetermined word string will be described as a sentence.

この例では、楕円形の各ノードに、識別するため3桁の数字を付している。始点ノードはノード001であり、終点ノードはノード008である。この例では、始点と終点との間には、ノード002〜ノード007が直線状に並べられている。また、始点と終点との間には、並列に、ノード010〜ノード015が直線状に並べられている。さらに、始点と終点との間には、並列に、ノード018〜ノード023が直線状に並べられている。また、この例では、状態(ノード)と状態(ノード)との間に、遷移(枝)が設定されている。ここで、ノードとノードとの間という場合、自ノード間も含まれている。各遷移には、単語が記載されているか、または、記号として<S>、<I>、<D>、<EmiX(ここでXは1〜3の1つ)>および<eps>のうちのいずれかが記載されている。   In this example, each ellipse node is given a three-digit number for identification. The start point node is node 001, and the end point node is node 008. In this example, nodes 002 to 007 are arranged in a straight line between the start point and the end point. Further, nodes 010 to 015 are arranged in a straight line in parallel between the start point and the end point. Furthermore, nodes 018 to 023 are arranged in a straight line in parallel between the start point and the end point. In this example, a transition (branch) is set between the state (node) and the state (node). Here, when it is between nodes, it also includes between own nodes. Each transition has a word or symbol <S>, <I>, <D>, <EmiX (where X is one of 1 to 3)> and <eps> Either is listed.

まず、図2のすべての遷移について一般化して説明すると、このWFSTは、状態と状態間の各遷移に、(Si/So:ω)のパラメーターが設定されている。ここで、Siとは同遷移が受理する単語入力を表し、Soとは同遷移が出力する所定の単語列(文)を表し、ωは遷移重み(状態遷移重み)を表す。つまり、各遷移には、3つ組のパラメーターが設定されている。ただし、図2では紙面の都合上、パラメーターをすべての遷移に記載しているわけではなく、単語が記載された合計18の遷移に、3つ組のパラメーターのうちのSi、Soのいずれかのみが記載されている。 First, to generalize all the transitions in FIG. 2, in this WFST, a parameter of (S i / S o : ω) is set for each transition between states. Here, S i represents a word input accepted by the transition, S o represents a predetermined word string (sentence) output by the transition, and ω represents a transition weight (state transition weight). That is, a triple parameter is set for each transition. However, for the convenience of the paper in FIG. 2, not describe parameters in all transitions, the transition of the total 18 words have been described, S i of the three sets of parameters, one of the S o Only is described.

ここで、図2に記載された単語を一般化して単語sと表記する。なお、アルファベットの大文字と小文字とを区別している。図2において、単語sは、原稿の単語列が含んでいる単語を表す。単語sが記載された各遷移は、当該遷移に記載された単語sと同じ単語が入力されたときのみ遷移可能なことを表している。つまり、原稿の単語列が含んでいるある単語sの位置に対応する認識単語列の位置に入力した単語が、原稿のある単語sと同じ単語であれば、状態遷移することができる。要するに、単語sが記載された各遷移は、音声認識された単語を受理して進む遷移である。このようにここで構築するWFSTは、全ての原稿文を自由に接続できるネットワークである。   Here, the word described in FIG. 2 is generalized and expressed as a word s. Note that uppercase and lowercase letters are distinguished. In FIG. 2, a word s represents a word included in the word string of the document. Each transition in which the word s is described indicates that transition is possible only when the same word as the word s described in the transition is input. That is, if the word input at the position of the recognized word string corresponding to the position of a certain word s included in the word string of the document is the same as the word s on the document, the state can be changed. In short, each transition in which the word s is described is a transition that proceeds after receiving a speech-recognized word. As described above, the WFST constructed here is a network that can freely connect all document texts.

図2において、単語sが記載された遷移についてのパラメーターは、(s/ε:0.0)で表される。ここで、sは同遷移が受理できる単語入力を表し、εはこの遷移で出力は無いことを意昧する。また、0.0は遷移重みの1つであって、この遷移に対して単語sと同じ単語が入力されたときには、ペナルティが課されないことを意味する。例えば、図2で「先月」が記載された遷移は、3つ組のパラメーターで表すと、(先月/ε:0.0)のことである。   In FIG. 2, the parameter for the transition in which the word s is described is represented by (s / ε: 0.0). Here, s represents a word input that the transition can accept, and ε means that there is no output in this transition. Moreover, 0.0 is one of the transition weights, and means that no penalty is imposed when the same word as the word s is input for this transition. For example, a transition in which “last month” is described in FIG. 2 is (last month / ε: 0.0) in terms of a triple parameter.

図2において、<S>が記載された遷移は、置換単語を受理するための遷移である。つまり、原稿の単語列が含んでいるある単語sの位置に対応する認識単語列の位置に入力した単語が、原稿のある単語sとは異なる任意の単語に置換されていたときに、その置換単語を受理するための遷移である。以下、原稿の単語列が含んでいるある単語sの位置において、この単語sとは異なる任意の単語のことを、任意の単語*と表記する。この置換には、例えば「再開」が同音異義語の「再会」に翻字されて認識された場合も含まれる。   In FIG. 2, a transition in which <S> is described is a transition for accepting a replacement word. That is, when the word input at the position of the recognized word string corresponding to the position of a certain word s included in the document word string is replaced with an arbitrary word different from the word s on the document, the replacement is performed. A transition for accepting a word. Hereinafter, an arbitrary word different from the word s at the position of a certain word s included in the word string of the document is referred to as an arbitrary word *. This replacement includes, for example, a case where “restart” is recognized as a transliteration of the homonym “reunion”.

図2において、<S>が記載された遷移は、任意の単語*を受理可能である。この<S>が記載された遷移についてのパラメーターは(*/ε:ωs)で表される。ここで、*は同遷移が受理できる任意の単語入力を表し、εはこの遷移で出力は無いことを意昧する。また、ωsは遷移重みの1つであって、この遷移に対して単語sとは異なる任意の単語*が入力されたときに課すペナルティ(以下、置換ペナルティという)を意味する。この置換ペナルティωsは、ノードスコアを下げる数値で表され、例えば-1.0を用いる。例えば、図2で<S>が記載された遷移は、3つ組のパラメーターで表すと、(*/ε:-1.0)のことである。 In FIG. 2, the transition in which <S> is described can accept any word *. The parameter for the transition in which <S> is described is represented by (* / ε: ω s ). Here, * represents an arbitrary word input that the transition can accept, and ε means that there is no output in this transition. Further, ω s is one of transition weights, and means a penalty imposed on the transition when an arbitrary word * different from the word s is input (hereinafter referred to as a replacement penalty). This replacement penalty ω s is expressed by a numerical value that lowers the node score, and for example, −1.0 is used. For example, the transition in which <S> is described in FIG. 2 is (* / ε: −1.0) in terms of a triple parameter.

図2において、<I>が記載された遷移は、挿入単語を受理するための遷移である。つまり、発話者に起因して、発話内容に情報の追加や言いよどみによる分節などの繰り返しがあった場合、原稿どおり又は置換されたと認識された単語列に続く位置に挿入された単語を受理するための遷移である。また、音声認識装置220に起因して、原稿通りならば1単語と認識すべきところを、複数単語として認識するような認識誤りで生じて、原稿通りの1単語に続く位置に挿入された単語を受理するための遷移である。   In FIG. 2, a transition in which <I> is described is a transition for accepting an insertion word. In other words, when there is a repetition of information added to the utterance content or segmentation due to stagnation due to the speaker, the word inserted at the position following the word string recognized as being replaced or replaced is accepted. Transition. In addition, due to the voice recognition device 220, a word inserted in a position following the one word as the manuscript is caused by a recognition error that recognizes a word that should be recognized as the manuscript as a plurality of words if it is as the manuscript. Is a transition to accept

図2において、<I>が記載された遷移は、任意の単語*を受理可能である。この<I>が記載された遷移についてのパラメーターは(*/ε:ωi)で表される。ここで、*は同遷移が受理できる任意の単語入力を表し、εはこの遷移で出力は無いことを意昧する。また、ωiは遷移重みの1つであって、この遷移に対して任意の単語*が入力されたときに課すペナルティ(以下、挿入ペナルティという)を意味する。この挿入ペナルティωiは、ノードスコアを下げる数値で表され、例えば-1.0を用いる。例えば、図2で<I>が記載された遷移は、3つ組のパラメーターで表すと、(*/ε:-1.0)のことである。 In FIG. 2, the transition with <I> described can accept any word *. The parameter for the transition in which <I> is described is represented by (* / ε: ω i ). Here, * represents an arbitrary word input that the transition can accept, and ε means that there is no output in this transition. Further, ω i is one of transition weights, and means a penalty imposed when an arbitrary word * is input for this transition (hereinafter referred to as an insertion penalty). This insertion penalty ω i is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, the transition in which <I> is described in FIG. 2 is (* / ε: −1.0) in terms of a triple parameter.

図2において、<D>が記載された遷移は、脱落単語を受理するための遷移である。つまり、発話者に起因して、発話内容の一部に句などの脱落があった場合、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。また、音声認識装置220に起因して、原稿通りならば複数単語と認識すべきところを、単語が削除されて1単語として認識するような認識誤りで生じて、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。   In FIG. 2, a transition in which <D> is described is a transition for accepting a dropped word. That is, this is a transition for specifying the position of a word dropped from the original in the recognized word string when a phrase or the like is dropped in a part of the utterance content due to the speaker. In addition, due to the voice recognition device 220, a word that should be recognized as a plurality of words according to the original is caused by a recognition error in which the word is deleted and recognized as one word, and is dropped from the original in the recognized word string. It is a transition for specifying the position of a word.

図2において、<D>が記載された遷移は、単語の入力が無くても遷移可能である。この<D>が記載された遷移についてのパラメーターは(ε/ε:ωd)で表される。ここで、はじめのεはこの遷移で単語の入力が無いことを意昧し、次のεはこの遷移で出力が無いことを意昧する。また、ωdは遷移重みの1つであって、この遷移で単語が脱落したときに課すペナルティ(以下、脱落ペナルティという)を意味する。この脱落ペナルティωdは、ノードスコアを下げる数値で表され、例えば-1.0を用いる。例えば、図2で<D>が記載された遷移は、3つ組のパラメーターで表すと、(ε/ε:-1.0)のことである。 In FIG. 2, transitions with <D> can be transitioned even if no word is input. The parameter for the transition in which <D> is described is represented by (ε / ε: ω d ). Here, the first ε means that there is no word input in this transition, and the next ε means that there is no output in this transition. Further, ω d is one of transition weights, and means a penalty imposed when a word is dropped in this transition (hereinafter referred to as a drop penalty). This drop penalty ω d is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, the transition in which <D> is described in FIG. 2 is (ε / ε: −1.0) in terms of a triple parameter.

図2において、<EmiX>が記載された遷移は、所定の単語列として文Lを出力するための遷移であり、修正結果を出力するための遷移である。この<EmiX>が記載された遷移についてのパラメーターは(ε/L:0.0)で表される。ここで、εはこの遷移において単語の入力が無いことを意昧する。また、Lはこの遷移で出力される単語列(文)を意昧する。例えば、図2で<Emi1>が記載された遷移は、3つ組のパラメーターで表すと、(ε/先月の関東甲信地方は…:0.0)のことである。つまり、この場合、Lは、始点ノード001からノード002を経由してノード007に至る各遷移に並べられた単語列「先月 の 関東甲信 地方 は …」をすべて順番に繋げた単語列となる。なお、パラメーター0.0は遷移重みの1つであって、この遷移に対して文を出力するときには、ペナルティが課されないことを意味する。   In FIG. 2, a transition in which <EmiX> is described is a transition for outputting a sentence L as a predetermined word string, and a transition for outputting a correction result. The parameter for the transition in which <EmiX> is described is represented by (ε / L: 0.0). Here, ε means that no word is input in this transition. L means a word string (sentence) output in this transition. For example, a transition in which <Emi1> is described in FIG. 2 is (ε / Last Kanto Koshin region ...: 0.0) in terms of a triple parameter. That is, in this case, L is a word string in which all of the word strings “Kanto Koshin region in last month are ...” arranged in each transition from the start node 001 to the node 007 via the node 002 are connected in order. The parameter 0.0 is one of transition weights, which means that no penalty is imposed when a sentence is output for this transition.

図2において、<eps>が記載された遷移は、終点ノードと始点ノードを連結する遷移であり、イプシロン遷移(ε遷移)と呼ばれている。<eps>が記載された遷移は、原稿テキスト集合に含まれる所定の単語列(文)が、連続して発話されるという拘束を与える遷移である。<eps>が記載された遷移についてのパラメーターは(ε/ε:ωu)で表される。はじめのεはこの遷移で単語の入力が無いことを意昧し、次のεはこの遷移で出力が無いことを意昧する。また、ωuは遷移重みの1つであって、適切な重み(数値)を与えることにより、WFSTは、より長く一致する文のスコアを高くすることができるようになる。 In FIG. 2, the transition in which <eps> is described is a transition that connects the end point node and the start point node, and is called an epsilon transition (ε transition). The transition in which <eps> is described is a transition that gives a constraint that a predetermined word string (sentence) included in the document text set is continuously spoken. A parameter for a transition in which <eps> is described is represented by (ε / ε: ω u ). The first ε means that there is no word input at this transition, and the next ε means there is no output at this transition. Also, ω u is one of transition weights, and by giving an appropriate weight (numerical value), the WFST can increase the score of sentences that match longer.

[WFSTの構築方法]
トランスデューサー構築装置240によるWFSTの構築方法について説明する。
予めWFSTにおいて出力遷移(<EmiX>が記載された遷移)を配置するための単語列の単位を決定しておく。これは、必要とする誤り修正能力に応じて設定することができる。出力遷移を配置する位置は、原稿テキスト集合200に含まれる原稿の単位を1つの区切りとすることができる。出力遷移を配置する位置は、文章単位、句単位、あるいは、記者が原稿の読み易さのために配置した改行単位などが利用可能である。ここで、長い単位を設定すると修正精度は高くなるが、送出する字幕単語列の確定が遅くなる。逆に、短い単位を設定すると、送出する字幕単語列の確定は速くなるが修正精度が低下する。よって、どのような単位を利用するかについては、期待される音声認識の認識精度と、原稿と読み上げ音声の一致度合いと、に応じて適宜設計すればよい。
[How to build WFST]
A WFST construction method by the transducer construction device 240 will be described.
A word string unit for arranging output transitions (transitions in which <EmiX> is described) in WFST is determined in advance. This can be set according to the required error correction capability. The positions where the output transitions are arranged can make the unit of the manuscript included in the manuscript text set 200 as one delimiter. As the position where the output transition is arranged, a sentence unit, a phrase unit, a line feed unit arranged for easy reading by the reporter, or the like can be used. Here, when a long unit is set, the correction accuracy increases, but the determination of the subtitle word string to be transmitted is delayed. Conversely, if a short unit is set, the determination of the subtitle word string to be sent out becomes faster, but the correction accuracy decreases. Therefore, what unit should be used may be appropriately designed according to the expected recognition accuracy of voice recognition and the degree of matching between the original and the reading voice.

本実施形態では、WFSTにおいて出力遷移を配置する位置は、一例として文を単位に決定されていることとしている。別の観点では、図2のWFSTは、文(所定単位の単語列)毎に始点ノード001と終点ノード008との間に文を構成する各単語の入力遷移を表す枝(図2において単語sが記載された遷移)と出力遷移を表す枝(図2において<EmiX>が記載された遷移)とを含んでいる。   In this embodiment, the position where the output transition is arranged in the WFST is determined in units of sentences as an example. From another viewpoint, the WFST in FIG. 2 uses a branch (word s in FIG. 2) that represents input transition of each word constituting a sentence between a start point node 001 and an end point node 008 for each sentence (a word string in a predetermined unit). ) And a branch representing an output transition (transition in which <EmiX> is described in FIG. 2).

WFSTの構築は、まず、WFSTの始点から始めて、原稿テキスト集合200に含まれる原稿テキストを一単語ずつ読み込む度に、同単語を受理する重み0の遷移と新たなノードとを順次作成していく。ここで、重み0の遷移とは3つ組のパラメーターで表すと、(s/ε:0.0)のことである。そして、前記した予め決定された単位になったら、出力遷移を追加してWFSTの終点ノードに連結する。まだ原稿が残っていたら、再び始点から始めて、原稿テキストを一単語ずつ読み込む度に、同単語を受理する重み0の遷移と新たなノードとを順次作成していく。そして、前記した予め決定された単位になったら、出力遷移を追加してWFSTの終点ノードに連結する。以下、同様に繰り返す。   The construction of the WFST starts with the starting point of the WFST, and each time the original text included in the original text set 200 is read word by word, a transition with a weight of 0 for accepting the word and a new node are sequentially created. . Here, the transition of weight 0 is (s / ε: 0.0) when expressed by a triple parameter. And when it becomes the above-mentioned predetermined unit, an output transition is added and it connects with the end point node of WFST. If the original still remains, starting from the starting point again, each time the original text is read word by word, a transition with a weight of 0 and a new node for accepting the word are sequentially created. And when it becomes the above-mentioned predetermined unit, an output transition is added and it connects with the end point node of WFST. Thereafter, the same is repeated.

原稿テキスト集合200から、すべての原稿テキストを読み込み終えたならば、最後に、終点ノードと始点ノードとをε遷移で連結する。ここで、ε遷移とは3つ組のパラメーターで表すと、(ε/ε:ωu)のことである。ここで、遷移重みωuに適切な重みを与える。これにより、WFSTはより長く一致する文のスコアを高くすることができるようになり、他の文の接頭辞と一致する文が原稿中に存在する場合にも、適切に動作できるようになる。最後に、各単語の遷移に、置換、脱落、挿入を受理する遷移を追加する。 When all the original texts have been read from the original text set 200, finally, the end point node and the start point node are connected by the ε transition. Here, the ε transition is (ε / ε: ω u ) in terms of a triple parameter. Here, an appropriate weight is given to the transition weight ω u . As a result, the WFST can increase the score of a sentence that matches longer, and can operate properly even when a sentence that matches the prefix of another sentence exists in the document. Finally, transitions that accept substitutions, omissions, and insertions are added to the transitions of each word.

[トランスデューサー構築装置の構成例]
図1に示す例では、トランスデューサー構築装置240は、単語ネットワーク登録手段241と、編集ネットワーク登録手段242と、を備えている。
単語ネットワーク登録手段241は、原稿テキスト集合200に含まれる原稿テキストにおける予め定められた所定単位(例えば文単位)毎に次の一連の処理を行う。すなわち、単語ネットワーク登録手段241は、一連の処理として、原稿テキスト集合200に含まれる原稿テキストに含まれる単語列の単語を読み込む度に、WFSTのネットワークの始点ノードから、単語を受理する入力遷移の枝と新たなノードとを、読み込んだ単語列が予め定められた所定単位(例えば文単位)になるまで順次作成する。そして、WFSTのネットワークにおいて、読み込んだ単語列の出力遷移の枝を追加して終点ノードに連結する。
[Configuration example of transducer construction device]
In the example shown in FIG. 1, the transducer construction device 240 includes a word network registration unit 241 and an editing network registration unit 242.
The word network registration unit 241 performs the following series of processes for each predetermined unit (for example, sentence unit) in the document text included in the document text set 200. That is, as a series of processes, the word network registration unit 241 receives input words from the start node of the WFST network each time a word in a word string included in the original text included in the original text set 200 is read. Branches and new nodes are sequentially created until the read word string reaches a predetermined unit (for example, sentence unit). Then, in the WFST network, an output transition branch of the read word string is added and connected to the end node.

編集ネットワーク登録手段242は、単語ネットワーク登録手段241で作成されたWFSTのネットワークのノード間に、単語の置換に対応して任意の単語を受理する状態遷移を表す枝と、単語の挿入に対応して任意の単語を受理する状態遷移を表す枝と、単語の削除に対応して入力が無くても出力側に遷移する状態遷移を表す枝とを追加するものである。   The editing network registration unit 242 corresponds to a branch representing a state transition that accepts an arbitrary word corresponding to a word replacement and a word insertion between nodes of the WFST network created by the word network registration unit 241. Thus, a branch representing a state transition that accepts an arbitrary word and a branch representing a state transition that transitions to the output side even if there is no input in response to the deletion of the word are added.

[音声認識誤り修正装置の構成例]
図1に示す例では、音声認識誤り修正装置100とは別にトランスデューサー構築装置240を設けたが、図3に示すように、例えば音声認識誤り修正装置100がトランスデューサー構築装置240を備えるようにしてもよい。この音声認識誤り修正装置100は、図3に示すように、WFST記憶手段(対応原稿集合記憶手段)110と、ノードデータ更新手段120と、ノードデータ記憶手段130と、原稿探索手段140と、原稿出力手段150と、を備えている。
[Configuration example of speech recognition error correction device]
In the example shown in FIG. 1, the transducer construction device 240 is provided separately from the speech recognition error correction device 100, but as shown in FIG. 3, for example, the speech recognition error correction device 100 includes the transducer construction device 240. May be. As shown in FIG. 3, the speech recognition error correction apparatus 100 includes a WFST storage unit (corresponding document set storage unit) 110, a node data update unit 120, a node data storage unit 130, a document search unit 140, and a document. Output means 150.

WFST記憶手段(対応原稿集合記憶手段)110は、原稿テキスト集合200を用いて予め構築されたWFST(対応原稿集合)を記憶している。このWFST(対応原稿集合)は、トランスデューサー構築装置240が構築したものである。よって、WFSTについては、図2を参照して説明したものと同じなので重複を避けるため説明を省略する。   The WFST storage unit (corresponding document set storage unit) 110 stores a WFST (corresponding document set) constructed in advance using the document text set 200. This WFST (corresponding document set) is constructed by the transducer construction device 240. Therefore, since WFST is the same as that described with reference to FIG. 2, description thereof is omitted to avoid duplication.

ノードデータ更新手段120は、音声認識装置220が出力する認識単語列の単語の入力を受け付ける時刻毎に、WFSTのネットワーク上を遷移可能な状態のスコアをノードデータとして計算および更新するものである。ノードデータ更新手段120は、例えば認識単語が1単語入力するたびに、WFST記憶手段110に記憶されたWFSTを参照して逐次的にビタビ探索を行い、ノードデータを更新する。   The node data updating unit 120 calculates and updates a score of a state that can be transited on the WFST network as node data every time when an input of a word of a recognized word string output from the speech recognition device 220 is received. For example, each time a recognition word is input, the node data updating unit 120 refers to the WFST stored in the WFST storage unit 110 and sequentially performs a Viterbi search to update the node data.

ノードデータ更新手段120は、認識単語列として入力する単語が、対応原稿と同じ単語である場合、スコアに「0」を加算し、入力する単語が対応原稿と異なる単語である場合、スコアにペナルティの「−1」を加算する。
例えば、図2に示す例において、認識単語列として入力する単語列が、対応原稿と全く同じ単語列である場合、始点ノード001から、単語「先月」を受理して対応原稿の単語に対応する遷移を通ってノード002に進むので、ノードデータ更新手段120は、スコアに「0」を加算する。その後、例えば、「の」を受理してノード003に進むと、スコアに「0」を加算する。同様に、「関東甲信」、…を受理していくと、スコアに「0」ずつ足していくことになる。
The node data updating unit 120 adds “0” to the score when the word input as the recognition word string is the same word as the corresponding document, and penalizes the score when the input word is a word different from the corresponding document. Add "-1".
For example, in the example shown in FIG. 2, when the word string input as the recognition word string is exactly the same word string as the corresponding document, the word “Last Month” is received from the start node 001 and corresponds to the word of the corresponding document. Since the process proceeds to the node 002 through the transition, the node data update unit 120 adds “0” to the score. Thereafter, for example, when “NO” is received and the process proceeds to node 003, “0” is added to the score. Similarly, when “Kanto Koshin”,... Is received, “0” is added to the score.

一方、例えば、図2に示す例において、認識単語列として入力する単語列が、対応原稿と異なる単語列である場合、始点ノード001から、単語「先週」を受理すると、対応原稿の単語「先月」が置換されているので、置換に対応する遷移を通ってノード002に進む。この場合、ノードデータ更新手段120は、スコアにペナルティの「−1」を加算する。また、挿入誤りや脱落誤りに対応する遷移を通った際も、同様にノードデータ更新手段120は、スコアにペナルティの「−1」を加算する。   On the other hand, for example, in the example shown in FIG. 2, when the word string input as the recognition word string is a word string different from the corresponding manuscript, if the word “Last Week” is received from the start point node 001, ”Has been replaced, the process proceeds to node 002 through a transition corresponding to the replacement. In this case, the node data updating unit 120 adds a penalty “−1” to the score. Also, when passing through a transition corresponding to an insertion error or dropout error, the node data update unit 120 similarly adds a penalty “−1” to the score.

このように、入力する認識単語がWFSTにおける単語sと同じであった場合に、そのパスのスコアが最良となる。一方、置換、挿入、削除の編集があった場合、スコアが悪化する。例えば<D>が記載された遷移は、入力が無くても遷移できるが、<D>が記載された遷移だけを通るパスの場合、出力遷移に近づくほど、スコアが低くなっている。WFSTは、認識単語列に、誤りや言い変えが含まれると、その分だけスコアが悪くなるというネットワークとして作成されている。   Thus, when the input recognition word is the same as the word s in WFST, the score of the path is the best. On the other hand, if there is a replacement, insertion, or deletion edit, the score deteriorates. For example, a transition in which <D> is described can transition even if there is no input. However, in the case of a path that passes only a transition in which <D> is described, the score becomes lower as it approaches the output transition. The WFST is created as a network in which if the recognition word string includes an error or paraphrase, the score is deteriorated accordingly.

ノードデータ記憶手段130は、ノードデータ更新手段120によって計算されたノードデータを更新時刻毎に記憶するものであり、例えばメモリやハードディスク等の一般的な記憶手段である。   The node data storage unit 130 stores the node data calculated by the node data update unit 120 at each update time, and is a general storage unit such as a memory or a hard disk.

原稿探索手段140は、最終最良仮説を確定するための全原稿についての全認識単語列の認識結果の入力を待たずに予め定められた処理開始条件が満たされる度に、その時点で記憶されているノードデータに基づいてWFSTのネットワーク上をトレースバックしながら、最終最良仮説を部分的に近似した仮説を誤り修正結果として逐次確定するものである。   The document searching means 140 is stored at that time every time a predetermined processing start condition is satisfied without waiting for input of recognition results of all recognized word strings for all documents for determining the final best hypothesis. A hypothesis partially approximating the final best hypothesis is sequentially determined as an error correction result while tracing back on the WFST network based on the node data.

原稿探索手段140は、WFST(対応原稿集合)に含まれる対応原稿の単語列と、入力された認識単語列との編集距離に基づいて最終最良仮説を近似する。原稿探索手段140は、WFSTのネットワーク上で予め定められた範囲毎に区切ったパス間において、その先頭から末尾までのパス区間での編集距離がある程度小さければ、そのパス区間が信頼できるものとして確定して出力する。ここで、編集距離が短いということは、認識単語列と原稿の単語列とがほとんどマッチしているパスを通ってきたことを意味する。逆に、編集距離が長いパス区間は信頼度が低いので、その時点では確定せずに、次回のトレースバックのときにも利用する。いつまでも信頼度が低いパス区間は、原稿には元々記載されていない違うことを話した区間である、と推定される。よって、信頼度が低いパス区間を出力しない。以下では、WFSTのネットワーク上で予め定められた範囲のパス区間を、一例として、WFSTのネットワーク上の2つの出力遷移間に挟まれたパス区間であるものとして説明する。   The document search unit 140 approximates the final best hypothesis based on the edit distance between the word string of the corresponding document included in the WFST (corresponding document set) and the input recognition word string. The document search means 140 determines that the path section is reliable if the edit distance in the path section from the head to the end is small to some extent between the paths divided in predetermined ranges on the WFST network. And output. Here, the short edit distance means that the path through which the recognized word string and the original word string are almost matched has been passed. On the other hand, since the reliability of a path section with a long editing distance is low, it is not determined at that time and is used for the next traceback. It is presumed that a path section having a low reliability forever is a section talking about a difference that is not originally described in the manuscript. Therefore, a path section with low reliability is not output. In the following, a path section in a predetermined range on the WFST network will be described as an example of a path section sandwiched between two output transitions on the WFST network.

前記処理開始条件が満たされるとは、例えば、発話音声がない無音期間が所定の期間に達した場合、または、音声認識装置220が出力する認識単語列としての単語の入力数が所定の単語数に達した場合等を意味する。所定の期間は特に限定されないが一例として3秒間を挙げることができる。また、所定の単語数は特に限定されないが一例として20単語を挙げることができる。このときの起動信号は、例えば音声認識装置220に自動的に出力させるようにしてもよいし、操作者がポーズだと認識したときや、所定の単語数になったと認識したときに、手動で入力するようにしてもよい。これによれば、認識単語の入力毎に探索処理を開始する場合に比べて処理負荷を低減できる。また、例えば無音期間が所定の期間だけあれば、その間、認識結果の逐次受信が停止しているので、その時点のノードスコアを容易に比較することができる。   The processing start condition is satisfied when, for example, a silent period without speech is reached a predetermined period, or the number of input words as a recognized word string output by the speech recognition device 220 is a predetermined number of words. It means the case of reaching. The predetermined period is not particularly limited, but an example is 3 seconds. Further, the predetermined number of words is not particularly limited, but 20 words can be given as an example. The activation signal at this time may be automatically output to the voice recognition device 220, for example, or manually when the operator recognizes that it is a pose or when a predetermined number of words has been reached. You may make it input. According to this, processing load can be reduced compared with the case where a search process is started for every input of a recognition word. Further, for example, if the silent period is only a predetermined period, since the sequential reception of the recognition results is stopped during that period, the node scores at that time can be easily compared.

上記機能を実現するために、本実施形態では、原稿探索手段140は、一例として図3に示すように、最大スコアノード検出手段141と、トレースバック手段142と、原稿分割手段143と、出力候補記憶手段144と、編集距離算出手段145と、編集距離判別手段146と、確定出力記憶手段147と、確定時刻記憶手段148と、を備えることとした。   In order to realize the above function, in the present embodiment, the document search unit 140 includes a maximum score node detection unit 141, a traceback unit 142, a document division unit 143, an output candidate, as shown in FIG. The storage unit 144, the edit distance calculation unit 145, the edit distance determination unit 146, the fixed output storage unit 147, and the fixed time storage unit 148 are provided.

最大スコアノード検出手段141は、予め定められた処理開始条件が満たされた場合、その時点で記憶されているノードデータにおいてスコアが最大のノードを検出するものである。例えば、発話音声がない無音期間(ポーズ)が所定の期間に達した場合、または、認識結果としての単語の入力数が所定の単語数に達する度に、その旨を示す起動信号が、最大スコアノード検出手段141に入力する。   The maximum score node detection unit 141 detects a node having the maximum score in the node data stored at that time when a predetermined process start condition is satisfied. For example, when the silent period (pause) in which there is no uttered voice reaches a predetermined period, or whenever the number of input words as a recognition result reaches a predetermined number of words, the activation signal indicating that is the maximum score Input to the node detection means 141.

トレースバック手段142は、最大スコアノード検出手段141で検出されたノードから、当該ノードに到達したパスについてWFSTのネットワークを下流から上流に向かってたどり、前回のトレースバックで確定し、出力された単語系列の最後の入力単語に対応した時刻までトレースバックするものである。   The traceback means 142 follows the WFST network from the downstream to the upstream for the path that has reached the node from the node detected by the maximum score node detection means 141, and is confirmed by the previous traceback, and the output word Trace back to the time corresponding to the last input word of the sequence.

図4は、図2に示したWFSTにパスP1を付加した模式図である。図4において、スコアが最大のノードがノード020であるものとする。また、前回のトレースバックで確定された最後の入力単語に対応したノードがノード007であったものとする。この場合、トレースバック手段142は、星印で示す位置から、パスP1をノード020、ノード019、ノード018の順番に逆向きにたどり、始点ノード001へ達すると、さらに終点ノード008に戻る。次に、2本目のツリーの出力遷移<Emi2>を経てノード015に達する。続いて、トレースバック手段142は、図5において、ノード015、ノード014、…の順番に逆向きにたどり、始点ノード001へ達すると、パスP2で示すように終点ノード008に戻る。次に、1本目のツリーの出力遷移<Emi1>を経てノード007に達する。   FIG. 4 is a schematic diagram in which a path P1 is added to the WFST shown in FIG. In FIG. 4, it is assumed that the node with the highest score is the node 020. Further, it is assumed that the node corresponding to the last input word determined in the previous traceback is the node 007. In this case, the traceback unit 142 traces the path P1 from the position indicated by the star in the reverse direction in the order of the node 020, the node 019, and the node 018, and when it reaches the start point node 001, returns to the end point node 008. Next, the node 015 is reached through the output transition <Emi2> of the second tree. Subsequently, the traceback unit 142 traces backward in the order of the nodes 015, 014,... In FIG. 5, and when reaching the start point node 001, returns to the end point node 008 as shown by the path P2. Next, the node 007 is reached through the output transition <Emi1> of the first tree.

図3に戻って、原稿探索手段140の説明を続ける。
原稿分割手段143は、今回トレースバックするパスの中で、2つの出力遷移間に挟まれたパス区間毎にWFST(対応原稿集合)に含まれる対応原稿の単語列を切り出すものである。図4及び図5を用いて説明した例の場合、出力遷移<Emi1>と出力遷移<Emi2>との間に挟まれたパス区間が、原稿分割手段143により分割される。
Returning to FIG. 3, the description of the document search means 140 will be continued.
The document dividing means 143 cuts out a word string of the corresponding document included in the WFST (corresponding document set) for each path section sandwiched between two output transitions in the path traced back this time. In the case of the example described with reference to FIGS. 4 and 5, the path section sandwiched between the output transition <Emi1> and the output transition <Emi2> is divided by the document dividing unit 143.

出力候補記憶手段144は、原稿分割手段143で分割されたパス区間に対応した出力遷移の出力シンボル(切り出された原稿)を、出力候補として記憶するものであり、例えばメモリやハードディスク等の一般的な記憶手段である。図4及び図5を用いて説明した例の場合、「今週 も まとまった 雨 は …」が、出力候補として記憶される。   The output candidate storage unit 144 stores an output transition output symbol (cut out document) corresponding to the path section divided by the document dividing unit 143 as an output candidate. Storage means. In the case of the example described with reference to FIGS. 4 and 5, “This week's rain is ...” is stored as an output candidate.

編集距離算出手段145は、原稿分割手段143で切り出された対応原稿毎に、入力された認識単語列との編集距離を算出するものである。本実施形態では、編集距離は、当該パス区間についての挿入、置換、削除に係る編集操作回数を、当該パス区間の単語数で除した値で定義される。ここで、認識単語列の単語の置換、挿入、削除の編集操作回数をeとし、出力遷移が対応する原稿の単語数をNrとすると、編集距離は、原稿の単語数Nrに対する、認識単語列の単語の編集操作回数eの割合(e/Nr)で表される。 The edit distance calculating unit 145 calculates an edit distance from the input recognition word string for each corresponding document cut out by the document dividing unit 143. In the present embodiment, the editing distance is defined by a value obtained by dividing the number of editing operations related to insertion, replacement, and deletion for the path section by the number of words in the path section. Here, assuming that the number of word replacement, insertion, and deletion editing operations in the recognized word string is e, and the number of original words corresponding to the output transition is N r , the editing distance is recognized for the original word number N r . It is represented by the ratio (e / N r ) of the number of word editing operations e in the word string.

具体的には、図2に示す例において、WFST上のパス区間が「ノード007→ノード008→ノード001→ノード0010→ノード0011→ノード0012→ノード0013→ノード0014→ノード0015」である場合を想定する。このパス区間は、6単語からなるものとし、単語「今週」が「今月」に置換されて認識されていた場合、編集距離は1/6となる。   Specifically, in the example shown in FIG. 2, the case where the path section on WFST is “node 007 → node 008 → node 001 → node 0010 → node 0011 → node 0012 → node 0013 → node 0014 → node 0015”. Suppose. This path section is composed of 6 words, and when the word “this week” is replaced with “this month” and recognized, the edit distance is 1/6.

編集距離判別手段146は、WFSTのネットワークを下流から上流に向かってパス区間を選択しながら、算出された編集距離が所定の閾値以下であるか否かを順次判別し、閾値以下である場合、WFSTのネットワーク上の当該パス区間の出力遷移を確定し、その出力シンボルを誤り修正結果として確定するものである。ここで、編集距離(e/Nr)が閾値T以下である場合、つまり、e/Nr≦T を満たすとき、出力遷移の出力シンボルを修正結果として確定する。また、編集距離判別手段146は、編集距離(e/Nr)が閾値Tより大きい場合、その出力シンボルを採用しない。つまり、閾値より大きな編集距離を有したパス区間の出力遷移の出力は、一旦保留され、このパス区間以降に確定された出力遷移があった場合には棄却される。なお、編集距離(e/Nr)がその定義から0〜1の範囲の値なので、閾値は0<T<1の関係を満たす。 The edit distance determining means 146 sequentially determines whether or not the calculated edit distance is equal to or less than a predetermined threshold while selecting a path section from the downstream to the upstream in the WFST network. The output transition of the path section on the WFST network is determined, and the output symbol is determined as an error correction result. Here, when the edit distance (e / N r ) is equal to or smaller than the threshold T, that is, when e / N r ≦ T is satisfied, the output symbol of the output transition is determined as the correction result. Further, when the edit distance (e / N r ) is larger than the threshold value T, the edit distance determination unit 146 does not adopt the output symbol. That is, the output of the output transition of the path section having an edit distance larger than the threshold is temporarily suspended, and is rejected when there is an output transition determined after this path section. Since the edit distance (e / N r ) is a value in the range of 0 to 1 from the definition, the threshold satisfies the relationship 0 <T <1.

確定出力記憶手段147は、編集距離判別手段146にて編集距離が所定の閾値以下であると判定された場合、当該所定パス区間における出力遷移の出力シンボルを誤り修正結果として記憶するものであり、例えばメモリやハードディスク等の一般的な記憶手段である。確定出力記憶手段147の記憶構造は、スタックであり、データを後入れ先出しの構造で保持する。   The definite output storage unit 147 stores the output symbol of the output transition in the predetermined path section as an error correction result when the editing distance determination unit 146 determines that the editing distance is equal to or less than the predetermined threshold. For example, it is a general storage means such as a memory or a hard disk. The storage structure of the definite output storage unit 147 is a stack and holds data in a last-in first-out structure.

確定時刻記憶手段148は、今回のトレースバック処理で確定した確定時刻を記憶するものであり、例えばメモリやハードディスク等の一般的な記憶手段である。確定時刻記憶手段148は、今回トレースバックする全パス区間(切り出された全ての原稿)について編集距離判別手段146による判別処理が終了した時点で、スタックに積まれた出力シンボルに対応する最新の確定単語の時刻を確定時刻として記憶する。   The fixed time storage unit 148 stores the fixed time determined by the current traceback process, and is a general storage unit such as a memory or a hard disk. The confirmation time storage means 148 is the latest confirmation corresponding to the output symbol stacked on the stack at the time when the edit distance determination means 146 has finished the determination for all the path sections (all cut out documents) to be traced back this time. The time of the word is stored as the confirmed time.

原稿出力手段150は、原稿探索手段140によって誤り修正結果として確定された対応原稿を逐次出力するものである。原稿出力手段150は、WFSTのネットワークを今回トレースバックするパスの中で、切り出されたすべての対応原稿の各パス区間に対して算出された編集距離についての判定処理が全て終了するまでに確定され、スタックに積まれた出力シンボルのデータをスタックが空になるまで出力する。   The manuscript output unit 150 sequentially outputs the corresponding manuscript determined as an error correction result by the manuscript search unit 140. The manuscript output means 150 is determined by the end of the determination process for the edit distance calculated for each path section of all the cut out corresponding manuscripts in the path traced back through the WFST network this time. The data of the output symbols loaded on the stack is output until the stack becomes empty.

この音声認識誤り修正装置100による修正出力は、間違いを正すことと、間違いを出力しないこと、の両方の意味を含んでいる。つまり、音声認識誤り修正装置100による修正結果を、仮に事前に人が見ることができたとしたときに、「これでは文章として成立していない」、「意味が異なっている」と感じるほどの間違い部分を、音声認識誤り修正装置100がその処理の中で検出し、その検出部分を出力しないという動作も、広義の誤り修正として含んでいる。   The correction output by the speech recognition error correction apparatus 100 includes both the meaning of correcting an error and not outputting the error. In other words, if the correction result by the speech recognition error correction device 100 can be viewed in advance by a person, an error is enough to feel that “this is not a sentence” or “the meaning is different”. The operation in which the speech recognition error correction apparatus 100 detects the part in the process and does not output the detected part is included as error correction in a broad sense.

[音声認識誤り修正装置の動作]
本形態に係る音声認識誤り修正装置100による処理の流れについて図6を参照(適宜図3参照)して説明する。
(前提1)認識結果の単語入力を{ω0,ω1,…,ωk,…,ωj,…}とする。
(前提2)前回のトレースバックにより確定した部分の最後の入力単語をωkとし、そのときの出力遷移をap(時間軸に沿ったP番目の出力遷移)とする。
(前提3)認識結果の単語ωjが入力された後、所定の無音が続いたことをトリガに、逐次確定を行う場合を考える。
(前提4)ノードデータ更新手段120は、無音になる前に最後に入力した単語ωjを受理して遷移できるノードを全て計算する。
[Operation of voice recognition error correction device]
The flow of processing by the speech recognition error correction apparatus 100 according to this embodiment will be described with reference to FIG. 6 (see FIG. 3 as appropriate).
(Assuming 1) the recognition result of a word input {ω 0, ω 1, ... , ω k, ..., ω j, ...} and.
(Assumption 2) Let ω k be the last input word of the part determined by the previous traceback, and let the output transition at that time be a p (Pth output transition along the time axis).
(Premise 3) Consider a case in which, after a word ω j as a recognition result is input, successive determination is performed using a predetermined silence as a trigger.
(Premise 4) The node data updating unit 120 accepts the last input word ω j before silence and calculates all nodes that can make a transition.

所定の無音が続いたことをトリガに、最大スコアノード検出手段141は、現時点で記憶されているノードデータにおいて最もスコアの高いノードを検出する(ステップS1)。この検出ノードで表される状態は、トレースバック開始時点の最尤状態である。そして、トレースバック手段142は、検出されたノードから、当該ノードに到達したパスについてWFST上の単語履歴を逆向きにたどり、前回のトレースバックで確定し、出力された単語系列の最後の入力単語ωk(WFSTの遷移が受理した単語がωkである遷移)に対応した確定時刻までトレースバックする(ステップS2)。ここで、前回のトレースバックで確定し、出力された単語系列の最後の入力単語ωkに対応した確定時刻としては、確定時刻記憶手段148に格納されている確定時刻を用いる。なお、単語がωkである遷移の代わりに、出力遷移aPにたどり着くまでトレースバックするようにしてもよい。 The maximum score node detecting means 141 detects the node having the highest score in the node data stored at the present time, triggered by the predetermined silence being continued (step S1). The state represented by this detection node is the maximum likelihood state at the start of traceback. Then, the traceback unit 142 traces the word history on the WFST in the reverse direction for the path reaching the node from the detected node, confirms it in the previous traceback, and outputs the last input word of the output word sequence. Trace back to a fixed time corresponding to ω k (transition in which the word accepted by the WFST transition is ω k ) (step S2). Here, the confirmed time stored in the confirmed time storage means 148 is used as the confirmed time corresponding to the last input word ω k of the word sequence that is confirmed and output in the previous traceback. Instead of the transition whose word is ω k , traceback may be performed until the output transition a P is reached.

そして、原稿分割手段143は、今回トレースバックするパスの中で、2つの出力遷移間に挟まれたパス区間毎に原稿を分割し、出力候補として出力候補記憶手段144に格納する(ステップS3)。ここで、出力遷移aPにたどり着くまで逆向きに進みながら、出力可能な出力遷移aL(時間軸に沿ったL番目(ただしL>P)の出力遷移)を通過する度に原稿を分割してもよいし、出力遷移aPの側から出力可能な出力遷移aLを通過する度に原稿を分割してもよい。また、出力可能な出力遷移aLとは、出力遷移のシンボルが出力候補になるものであるが、後に編集距離判別手段146により棄却され出力されない出力遷移も含んでいる。このような出力候補の編集距離をDと表記する。 Then, the document dividing unit 143 divides the document for each path section sandwiched between two output transitions in the path traced back this time, and stores the document in the output candidate storage unit 144 as an output candidate (step S3). . Here, the document is divided every time it passes through the output transition a L (L-th (but L> P) output transition along the time axis) that can be output while proceeding in the reverse direction until reaching the output transition a P. Alternatively, the document may be divided every time it passes through the output transition a L that can be output from the output transition a P side. The output transition a L that can be output includes output transition symbols that are candidates for output, but also include output transitions that are later rejected by the edit distance determination unit 146 and are not output. The edit distance of such an output candidate is denoted as D.

そして、編集距離算出手段145は、出力候補の編集距離Dを算出する(ステップS4)。具体的には、出力遷移aLの出力シンボルに対応する区間、すなわち、WFST上を出力遷移aLから逆向きに進んだときの直前の出力遷移aL-1と当該出力遷移aLとの間に挟まれたパス区間、についての編集操作回数(つまり、<S>、<D>、<I>を通った回数)を、同区間の単語数で割った値を、当該出力遷移aLにおける編集距離DLとして算出する。すなわち、同区間の編集操作回数をeLとし、同区間の単語数をNL rとすると、出力遷移aLにおける編集距離DLは、eL/NL rで表される。 Then, the edit distance calculation unit 145 calculates the edit distance D of the output candidate (step S4). Specifically, the section that corresponds to the output symbol of the output transition a L, i.e., immediately before the output transition a L-1 and with the output transition a L of when it proceeds in the opposite direction on WFST from the output transition a L A value obtained by dividing the number of editing operations (that is, the number of passes through <S>, <D>, and <I>) for the path section sandwiched between by the number of words in the section is the output transition a L Is calculated as the edit distance D L at. That is, assuming that the number of editing operations in the same section is e L and the number of words in the same section is N L r , the editing distance D L in the output transition a L is expressed by e L / N L r .

そして、編集距離判別手段146は、所定の出力候補を選択し、算出された編集距離Dが閾値T以下であるか否かを判別する(ステップS5)。編集距離Dが閾値T以下である場合(ステップS5:Yes)、編集距離判別手段146は、WFST上の当該パス区間の出力遷移を確定し、その出力シンボルを誤り修正結果として確定する(ステップS6)。さらに、編集距離判別手段146は、今回確定した出力シンボルのデータを、確定出力記憶手段147に記憶されたスタックに積み(ステップS7)、ステップS8に進む。   Then, the edit distance determination unit 146 selects a predetermined output candidate, and determines whether or not the calculated edit distance D is equal to or less than the threshold value T (step S5). When the edit distance D is less than or equal to the threshold T (step S5: Yes), the edit distance determination unit 146 determines the output transition of the path section on the WFST and determines the output symbol as an error correction result (step S6). ). Further, the editing distance determination unit 146 accumulates the data of the output symbol determined this time on the stack stored in the finalized output storage unit 147 (step S7), and proceeds to step S8.

そして、編集距離判別手段146は、前方に依然として選択すべき出力候補がある場合(ステップS8:No)、前記ステップS5に戻る。一方、すべての出力候補選択が選択された場合(ステップS8:Yes)、すなわち、切り出されたすべての原稿に対応した各パス区間に対して算出された編集距離についての判定処理が終了した場合、原稿出力手段150は、その時点でスタックに積まれている出力シンボルのデータをスタックが空になるまで順次出力する(ステップS9)。これにより、前方側に配置された原稿から順に出力される。   Then, when there is an output candidate that should still be selected ahead (Step S8: No), the edit distance determination unit 146 returns to Step S5. On the other hand, when all the output candidate selections are selected (step S8: Yes), that is, when the determination process for the edit distance calculated for each path section corresponding to all the cut out documents is completed, The document output means 150 sequentially outputs the output symbol data stacked on the stack at that time until the stack becomes empty (step S9). As a result, the documents are output sequentially from the document placed on the front side.

ここで、編集距離判別手段146は、すべての出力候補選択を選択した場合(ステップS8:Yes)、スタックに積まれた出力シンボルに対応する確定単語の時刻が最も新しいものを今回のトレースバック処理で確定した確定時刻として確定時刻記憶手段148に格納する。   Here, when all the output candidate selections are selected (step S8: Yes), the edit distance determination unit 146 selects the latest confirmed word corresponding to the output symbol stacked on the stack for the current traceback process. Is stored in the fixed time storage means 148 as the fixed time determined in step.

また、前記ステップS5において、編集距離Dが閾値Tより大きい場合(ステップS5:No)、データをスタックに積むことなくステップS8に進む。   If the edit distance D is greater than the threshold T in step S5 (step S5: No), the process proceeds to step S8 without loading data on the stack.

つまり、原稿出力手段150は、毎回のトレースバック処理でスタックに積んだデータを、確定された原稿として逐次出力する。この際に、音声認識結果のうち、所定のパス区間の編集距離Dが閾値Tより大きい場合、信頼度が低いパスなので、当該パス区間の出力遷移の出力シンボルは、誤り修正結果としては採用されず、出力もされない。   That is, the document output unit 150 sequentially outputs the data accumulated on the stack in each traceback process as a confirmed document. At this time, if the edit distance D of the predetermined path section is larger than the threshold T in the speech recognition result, the output symbol of the output transition of the path section is adopted as the error correction result because the path has low reliability. And no output.

[編集距離の閾値Tの決め方]
音声認識の認識精度が90%くらいならば、編集距離の値も90%くらいになる可能性がある。判別に用いる編集距離の閾値Tとしては、音声認識の認識精度よりも充分低いところ、例えば単語一致率の信頼度分だけ下方にマージンを取って設定することが好ましい。ここで、単語一致率の信頼度は、WFSTのネットワークの2つの出力遷移間の単語数に依存する。
[How to determine the edit distance threshold T]
If the recognition accuracy of voice recognition is about 90%, the edit distance value may be about 90%. The threshold value T of the edit distance used for the determination is preferably set at a position sufficiently lower than the recognition accuracy of voice recognition, for example, with a margin below the reliability of the word matching rate. Here, the reliability of the word match rate depends on the number of words between two output transitions of the WFST network.

その他の要因としては、原稿テキスト集合200に含まれる原稿の候補の文章としての重なりがどのくらいの割合であるのかという点も考慮して閾値Tを決めることが好ましい。例えば、下記(E1)〜(E3)に示す文の場合、文章としての重なりが80%くらいの割合で含まれている。
(E1) 今日 の 天気 は 晴れ です
(E2) 今日 の 天気 は 雨 です
(E3) 今日 の 天気 は 曇り です
このような場合、編集距離の閾値も80%くらいに設定してしまったとしたら所望の動きが実現できない。なお、ニュース原稿の一文ごとに出力遷移を配置し、閾値Tを50%とした条件で実験した場合、問題なく動作することが確認できた。
As another factor, it is preferable to determine the threshold value T in consideration of the ratio of the overlapping of the original document candidates included in the original text set 200 as a ratio. For example, in the case of sentences shown in (E1) to (E3) below, overlapping as sentences is included at a rate of about 80%.
(E1) Today's weather is sunny (E2) Today's weather is rainy (E3) Today's weather is cloudy In this case, if the edit distance threshold is set to about 80%, the desired movement Cannot be realized. It has been confirmed that when an experiment is performed under the condition that an output transition is arranged for each sentence of the news manuscript and the threshold T is 50%, the operation is performed without any problem.

[WFSTのオプション]
<オプション1:言い換えを受理するWFSTの構築>
WFSTの情報源となる原稿には、それが読まれるときに、読み飛ばされる句や、言い換えられる句、補足される句が含まれている場合がある。これらの一部には、定型で高い頻度で起こるものがある。例えば、ニュース番組の原稿では、取材元を表す「警視庁によりますと、」などの句は、読み飛ばされやすい定型句である。ただし、これを読み飛ばしたとしても、ニュース主文(5W1H)の文意に変わりはなく、実用上の問題はない。
[WFST options]
<Option 1: Construction of WFST that accepts paraphrasing>
A manuscript serving as a WFST information source may include a phrase that is skipped when it is read, a phrase that can be rephrased, and a phrase that is supplemented. Some of these are typical and occur frequently. For example, in a news program manuscript, phrases such as “according to the Metropolitan Police Department” representing the source of the interview are fixed phrases that are easily skipped. However, even if this is skipped, there is no change in the meaning of the news main sentence (5W1H), and there is no practical problem.

オプション1では、このような定型の言い回しをWFSTに追加しておくことで、精度よく修正結果を出力できるようにしたものである。WFSTは、従来公知のように、音声認識デコーダや機械翻訳などに用いられており、種々の演算アルゴリズムが知られている。例えば、合成(図7(a)参照)、最小化(図7(b)参照)、決定化(図7(c)参照)を行うアルゴリズムを適用することができ、効率よい状態遷移機械を構成できるという特徴がある。上記の言い回しの追加については、原稿から構築したWFSTとは別に、言い回しを追加するためのWFSTを別途構築しておき、原稿から構築したWFSTと合成することにより、効率よく実現できる。   In option 1, such a standard wording is added to the WFST so that the correction result can be output with high accuracy. As conventionally known, WFST is used for speech recognition decoders, machine translation, and the like, and various calculation algorithms are known. For example, an algorithm that performs synthesis (see FIG. 7A), minimization (see FIG. 7B), and determinization (see FIG. 7C) can be applied, and an efficient state transition machine can be configured. There is a feature that can be done. The addition of the wording can be efficiently realized by separately constructing a WFST for adding wording separately from the WFST constructed from the manuscript and combining it with the WFST constructed from the manuscript.

例えば、言い換え例については、過去の同種の番組の原稿と、実際に読み上げられた単語列と、の差分から、頻度が高く、同言い換えによって文意に変更がないものを選別して用意しておく。この選別された言い換え例ごとに、言い換えを合成するためのWFSTを構築しておき、原稿から構築したWFSTと合成演算を施すことにより、言い換えに対応可能なWFSTを構築することができる。ここで、WFSTの合成について図7(a)を参照して説明する。   For example, as for paraphrasing examples, prepare the ones that have a high frequency and that have no change in meaning by paraphrasing, based on the difference between the original of the same kind of program in the past and the word string actually read out. deep. For each selected paraphrase example, a WFST for synthesizing paraphrases is constructed, and a WFST that is compatible with paraphrasing can be constructed by performing a synthesis operation with the WFST constructed from the original. Here, the synthesis of WFST will be described with reference to FIG.

図7(a)では、ノードを円形で示している。図7(a)の左側の上の図は、原稿から構築したWFSTの一例の模式図であり、図7(a)の左側の下の図は、追加されるWFSTの一例の模式図である。図7(a)の右側の図は、原稿から構築したWFSTと、追加されるWFSTとを合成した後のWFSTの模式図である。   In FIG. 7A, the nodes are shown as circles. The upper diagram on the left side of FIG. 7A is a schematic diagram of an example of a WFST constructed from a document, and the lower diagram on the left side of FIG. 7A is a schematic diagram of an example of an added WFST. . The diagram on the right side of FIG. 7A is a schematic diagram of the WFST after the WFST constructed from the original and the added WFST are combined.

<オプション2:WFSTを作成する際のオプションA>
WFSTを作成する際に、必要があればWFSTの最小化を行ってもよい。ここで、WFSTの最小化について図7(b)を参照して説明する。図7(b)の左側の図は、原稿から通常の手法で構築されたWFSTの一例を示す模式図である。ここで、a1〜a6は異なる単語を示す。
<Option 2: Option A when creating WFST>
When creating the WFST, the WFST may be minimized if necessary. Here, the minimization of WFST will be described with reference to FIG. The diagram on the left side of FIG. 7B is a schematic diagram showing an example of a WFST constructed from a document by a normal method. Here, a1 to a6 indicate different words.

図7(b)の右側の図は、原稿から通常の手法で構築されたWFSTを最小化した後のWFSTの模式図である。最小化した後のWFSTには、元のWFSTの3つの単語列において共通する接頭辞(単語a1,a2)について、配列順序(単語位置)を考慮してノード(状態)を集約し、最小個数の枝(遷移)が配置されている。
WFSTの最小化によれば、同じ接頭辞を有する単語列(文)を同一の遷移で共有できるので、演算量を削減することができる。
The diagram on the right side of FIG. 7B is a schematic diagram of the WFST after minimizing the WFST constructed from the original by a normal method. In the WFST after minimization, nodes (states) are aggregated in consideration of the arrangement order (word position) for the prefixes (words a1, a2) common to the three word strings of the original WFST, and the minimum number Branches (transitions) are arranged.
According to WFST minimization, word strings (sentences) having the same prefix can be shared by the same transition, so that the amount of calculation can be reduced.

<オプション3:WFSTを作成する際のオプションB>
また、WFSTを作成する際に、必要があればWFSTの決定化を行ってもよい。ここで、WFSTの決定化について図7(c)を参照して説明する。図7(c)の左側の図は、図7(b)の右側に示すWFSTと同じ形状のWFSTの模式図である。ただし、図7(b)において単語a4が記載されていた遷移には、代わりに出力文o1が記載されている。同様に、単語a5が記載されていた遷移には、代わりに出力文o2が記載され、単語a6の代わりに出力文o3が記載されている。
<Option 3: Option B when creating a WFST>
Further, when creating a WFST, if necessary, the WFST may be determinized. Here, determinization of WFST will be described with reference to FIG. The diagram on the left side of FIG. 7C is a schematic diagram of a WFST having the same shape as the WFST shown on the right side of FIG. However, in the transition in which the word a4 is described in FIG. 7B, the output sentence o1 is described instead. Similarly, in the transition in which the word a5 is described, the output sentence o2 is described instead, and the output sentence o3 is described instead of the word a6.

図7(c)の右側の図は、元とするWFSTを決定化した後のWFSTの模式図である。決定化した後のWFSTでは、元のWFSTと比べて、出力文o3が1つ前(1つ左側)の遷移に記載されている点が異なっている。
元のWFSTには、左から2番目のノードから次のノードへ状態遷移する際に分岐があり、この2番目のノードから図中下のノードに遷移した時点で、出力文がo1やo2ではなくo3になることが決定的であることが分かる。そこで、少しでも早く推定結果を出力するために、決定化した後のWFSTでは、出力文の位置を変更したものである。
The diagram on the right side of FIG. 7C is a schematic diagram of the WFST after determinating the original WFST. The WFST after determinization is different from the original WFST in that the output sentence o3 is described in the previous transition (one left side).
The original WFST has a branch at the time of state transition from the second node from the left to the next node, and when the transition from the second node to the lower node in the figure, the output statement is o1 or o2. It turns out that it becomes decisive to become o3. Therefore, in order to output the estimation result as soon as possible, the position of the output sentence is changed in the WFST after determinization.

WFSTの決定化によれば、出力文を、接頭辞がユニークとなる遷移に移動して、出力文を旱期に確定できるようになるなどの利点がある。ただし、WFSTを作成する際にWFSTの決定化を行った場合、原稿探索手段140による最尤仮説の探索処理でも対応できるように設定変更が必要である。つまり、WFSTの決定化を行わない場合に比べて、編集距離を計算するためのパス区間を出力遷移の前後にシフトさせる必要がある。加えて、前後のパス区間の伸縮分を吸収できるように、閾値Tをより厳しい値(小さい値)に設定する必要がある。   According to WFST determinization, there is an advantage that the output sentence is moved to a transition with a unique prefix, so that the output sentence can be finalized. However, if the WFST is determinized when creating the WFST, it is necessary to change the setting so that the search process of the maximum likelihood hypothesis by the manuscript search means 140 can also cope. That is, it is necessary to shift the path section for calculating the edit distance before and after the output transition as compared with the case where WFST is not determinized. In addition, the threshold value T needs to be set to a stricter value (small value) so that the expansion and contraction of the preceding and following path sections can be absorbed.

[他のオプション]
本形態は、多言語字幕の生成にも応用可能である。例えば図2に示すWFSTのノード015の次の<Emi2>が記載された出力遷移に、ノード010〜015までの和文に対応した英文を出力シンボルとすることにより、日本語の音声入力に対応した英語の字幕を生成することができる。また、日英の字幕を同時に生成する必要がある場合には、「今週 も まとまった 雨 は …」にその英訳文を併記したものを利用することができる。
[Other options]
This embodiment can also be applied to the generation of multilingual subtitles. For example, in the output transition in which <Emi2> next to node 015 of WFST shown in FIG. 2 is described, an English sentence corresponding to a Japanese sentence from nodes 010 to 015 is used as an output symbol, thereby supporting Japanese voice input. English subtitles can be generated. If you need to generate Japanese and English subtitles at the same time, you can use the English translation along with “This rain is all together this week”.

以上説明したように、本実施形態に係る音声認識誤り修正装置100は、原稿中の文が、任意の順番で連続して発声されるという拘束のもと、文境界を固定せずに、認識結果と原稿との対応を単語単位でとることで、従来のブロック照合方式の自動修正誤りを解消する。一方で、より精度の高い修正出力を得るためには、出力は、文、又はそれに準じる単位があった方が望ましい。この二律背反を解消して両立させるため、音声認識誤り修正装置100は、認識結果と原稿との対応を、重み付き有限状態トランスデューサー(WFST)を用いて求めている。   As described above, the speech recognition error correction apparatus 100 according to the present embodiment recognizes a sentence without fixing a sentence boundary under the constraint that sentences in a document are continuously uttered in an arbitrary order. By taking the correspondence between the result and the manuscript in word units, the automatic correction error of the conventional block matching method is eliminated. On the other hand, in order to obtain a corrected output with higher accuracy, it is desirable that the output has a sentence or a unit equivalent thereto. In order to eliminate this contradiction and achieve both, the speech recognition error correction apparatus 100 uses a weighted finite state transducer (WFST) to determine the correspondence between the recognition result and the document.

そして、音声認識誤り修正装置100は、認識単語の単語列が原稿の単語列と比較して、どこと一番マッチしているのかを、従来のブロック照合方式(特許文献1の技術)の長さN(単語数N)の単語連鎖ブロックより長い範囲で照合している。従来のブロック照合方式と比べると、認識単語の単語列と原稿の単語列とを照合するための区間を、単語連鎖ブロックに相当する区間だけではなく、原稿の文章を遡っていった、もっと長い文章全体で照合する。そのため、どこでマッチさせるのがよいのかが従来よりも明白に分かり、自動修正誤りを従来よりも低減できる。   Then, the speech recognition error correction apparatus 100 compares the word string of the recognized word with the word string of the original document to determine where the word string matches the longest of the conventional block matching method (the technique of Patent Document 1). Collating in a range longer than a word chain block of length N (number of words N). Compared to the conventional block matching method, the section for matching the word string of the recognized word and the word string of the manuscript is not only the section corresponding to the word chain block, but the manuscript sentence, which is longer Match the entire sentence. Therefore, it is clearly known where to make the match, and automatic correction errors can be reduced more than before.

以上、実施形態に基づいて本形態に係る音声認識誤り修正装置について説明したが、本形態はこれらに限定されるものではない。例えば、発話音声の認識単語に対する推定対応原稿の信頼度が高いか否かを編集距離を用いて判別することとしたが、編集距離のほか、原稿と認識結果の一致率、一致精度、脱落率、挿入率を利用したり、それらを併用したりしてもよい。   As described above, the speech recognition error correction apparatus according to the present embodiment has been described based on the embodiment, but the present embodiment is not limited thereto. For example, it was decided by using the edit distance whether or not the reliability of the estimated correspondence manuscript with respect to the recognition word of the utterance speech is high. The insertion rate may be used or they may be used in combination.

また、例えば図2に示すWFSTの<EmiX>が記載された出力遷移に、音声認識の結果では得られない「、」や「。」、記号なども原稿の表記に従って出力シンボルに埋め込むことができる。この場合、より読みやすい字幕を生成することができる。   For example, in the output transition in which <EmiX> of WFST shown in FIG. 2 is described, “,”, “.”, Symbols, and the like that cannot be obtained as a result of speech recognition can be embedded in the output symbols according to the notation of the manuscript. . In this case, subtitles that are easier to read can be generated.

本形態において、字幕を付けることは必須ではない。また、音声認識の対象となる話す予定の内容がある程度決まっていて、その内容を事前に入手できるようであれば、必ずしも放送番組の音声を前提とするものでなくてもよい。   In this embodiment, it is not essential to add subtitles. Also, if the content of the speech to be spoken is determined to some extent and the content can be obtained in advance, it is not necessarily premised on the sound of the broadcast program.

以上、説明した方式1の構成を整理すると次の通りである。
[1−1]原稿テキスト集合に含まれる原稿を読み上げた発話音声を認識する音声認識装置が出力する認識単語列を入力として受け付け、予め記憶した対応原稿集合の中から対応原稿の単語列を推定することで、前記認識単語列に含まれる誤りを修正する音声認識誤り修正装置であって、前記原稿テキスト集合を予め読み込んで構築された前記対応原稿集合であって状態を表すノードとノード間の状態遷移を表す枝とをネットワークとして有した重み付き有限状態トランスデューサで表された前記対応原稿集合を記憶する対応原稿集合記憶手段と、前記認識単語列の単語の入力を受け付ける時刻毎に、前記重み付き有限状態トランスデューサのネットワーク上を遷移可能な状態のスコアをノードデータとして計算および更新するノードデータ更新手段と、前記計算されたノードデータを更新時刻毎に記憶するノードデータ記憶手段と、最終最良仮説を確定するための全原稿についての全認識単語列の認識結果の入力を待たずに予め定められた処理開始条件が満たされる度に、その時点で記憶されている前記ノードデータに基づいて前記ネットワーク上をトレースバックしながら、前記最終最良仮説を部分的に近似した仮説を誤り修正結果として逐次確定する原稿探索手段と、前記誤り修正結果として確定された対応原稿を逐次出力する原稿出力手段と、を備えることを特徴とする音声認識誤り修正装置。
The configuration of the method 1 described above is organized as follows.
[1-1] A recognition word string output by a speech recognition device that recognizes speech uttered by reading out a manuscript included in a manuscript text set is received as an input, and a word string of the corresponding manuscript is estimated from a corresponding manuscript set stored in advance. A speech recognition error correction device for correcting an error included in the recognition word string, the corresponding document set constructed by reading the document text set in advance, and a node between the nodes representing the state Corresponding manuscript set storage means for storing the corresponding manuscript set represented by a weighted finite state transducer having a branch representing a state transition as a network, and for each time the word input of the recognized word string is received, the weight Node data that calculates and updates the score of a state that can be transited on a network of finite state transducers with a node as node data New means, node data storage means for storing the calculated node data at each update time, and predetermined without waiting for input of recognition results of all recognized word strings for all manuscripts for determining the final best hypothesis Each time a specified processing start condition is satisfied, a hypothesis that partially approximates the final best hypothesis is sequentially obtained as an error correction result while tracing back on the network based on the node data stored at that time. A speech recognition error correction apparatus, comprising: a document search unit to be determined; and a document output unit to sequentially output a corresponding document determined as the error correction result.

[1−2]対応原稿集合記憶手段に記憶された前記対応原稿集合として予め構築された重み付き有限状態トランスデューサは、前記ネットワークとして、前記対応原稿集合に含まれる対応原稿毎に始点ノードと終点ノードとの間に前記対応原稿の単語列を構成する各単語の入力遷移をそれぞれ表す枝と前記単語列の出力遷移を表す枝とを含み、前記終点ノードから前記始点ノードに遷移する状態遷移を表す枝とを備えると共に、単語の置換に対応して任意の単語を受理する状態遷移を表す枝と、単語の挿入に対応して任意の単語を受理する状態遷移を表す枝と、単語の削除に対応して入力が無くても出力側に遷移する状態遷移を表す枝と、のうちの少なくとも1つを備えることを特徴とする前記[1−1]の音声認識誤り修正装置。   [1-2] A weighted finite state transducer preliminarily constructed as the corresponding document set stored in the corresponding document set storage unit is used as the network as a start point node and an end point node for each corresponding document included in the corresponding document set. And a branch representing an input transition of each word constituting the word string of the corresponding manuscript and a branch representing an output transition of the word string, and represents a state transition that transitions from the end node to the start node A branch that represents a state transition that accepts an arbitrary word in response to a word replacement, a branch that represents a state transition that accepts an arbitrary word in response to an insertion of a word, and a deletion of a word Correspondingly, at least one of branches representing a state transition that makes a transition to the output side even when there is no input is provided.

[1−3]前記原稿探索手段は、前記対応原稿集合に含まれる対応原稿の単語列と、入力された前記認識単語列との編集距離として、前記重み付き有限状態トランスデューサのネットワーク上で予め定められた範囲のパス区間の対応原稿の単語列についての挿入、置換、削除に係る編集操作回数を、当該パス区間の単語数で除した値を算出し、前記パス区間毎に算出された前記編集距離を所定の閾値と比較することで、前記最終最良仮説を近似することを特徴とする前記[1−2]の音声認識誤り修正装置。   [1-3] The document search means determines in advance on the network of weighted finite state transducers as an edit distance between a word string of a corresponding document included in the corresponding document set and the input recognition word string. A value obtained by dividing the number of editing operations related to insertion, replacement, and deletion of the word sequence of the corresponding manuscript in the range of the path section by the number of words in the path section is calculated, and the edit calculated for each path section is calculated. The speech recognition error correction apparatus according to [1-2], wherein the final best hypothesis is approximated by comparing a distance with a predetermined threshold.

[1−4]前記原稿探索手段は、前記編集距離が前記閾値以下である対応原稿の単語列が確定された時点で、前記重み付き有限状態トランスデューサのネットワークにおいて当該対応原稿のパス区間以前に逐次出力が確定された対応原稿までさかのぼって、前記編集距離が前記閾値以下となったすべてのパス区間の対応原稿を前記原稿出力手段によってネットワークの上流から順次出力させ、前記編集距離が閾値より大きなすべてのパス区間の対応原稿を出力させないことを特徴とする前記[1−3]の音声認識誤り修正装置。   [1-4] The document search means sequentially starts before the path section of the corresponding document in the weighted finite state transducer network at the time when the word string of the corresponding document whose edit distance is equal to or less than the threshold is determined. By going back to the corresponding manuscript whose output has been confirmed, the manuscript output means sequentially outputs the manuscripts of all the path sections whose edit distance is equal to or less than the threshold value from the upstream of the network, and all the edit distances greater than the threshold value are output. The speech recognition error correcting apparatus according to [1-3], wherein the corresponding document in the pass section is not output.

[5]対応原稿集合記憶手段に記憶された前記対応原稿集合として予め構築された重み付き有限状態トランスデューサは、前記ネットワークとして、前記原稿テキスト集合に含まれる単語列と同様の意味を有する予め定められた言い換え候補の単語列を受理する枝、または/および、前記原稿テキスト集合に含まれる単語列であって前記音声認識装置が出力する認識単語列において脱落する可能性があるものとして予め定められた単語列を受理する枝を、さらに備えていることを特徴とする前記[1−1]から[1−4]に記載の音声認識誤り修正装置。   [5] A weighted finite state transducer previously constructed as the corresponding manuscript set stored in the corresponding manuscript set storage means has a similar meaning as the word string included in the manuscript text set as the network. A branch that accepts a word string as a paraphrase candidate, and / or a word string that is included in the original text set and that may be dropped in a recognized word string that is output by the speech recognition apparatus. The speech recognition error correction apparatus according to [1-1] to [1-4], further including a branch that accepts a word string.

[6]前記原稿探索手段は、前記発話音声がない無音期間が所定の期間に達した場合、または、前記音声認識装置が出力する認識単語列としての単語の入力数が所定の単語数に達した場合、前記処理開始条件が満たされたものとして、前記重み付き有限状態トランスデューサのネットワーク上をトレースバックすることを特徴とする前記[1−1]から[1−5]に記載の音声認識誤り修正装置。   [6] The manuscript search means is configured such that when the silent period without the uttered voice reaches a predetermined period, or the number of input words as a recognized word string output by the voice recognition device reaches a predetermined number of words. In this case, the speech recognition error described in [1-1] to [1-5] is traced back on the network of the weighted finite state transducer on the assumption that the processing start condition is satisfied. Correction device.

[方式2:前提とする音声認識誤り修正装置の形態]
本形態について、図面を参照しながら説明する。本形態は、音声認識結果などの誤りの混入が不可避な単語列と、その単語列の情報源となった原稿などの対応を早期に確定する技術を用いる。これにより、音声認識結果に含まれる誤りを自動修正する。
[Method 2: Assumed form of speech recognition error correction apparatus]
This embodiment will be described with reference to the drawings. In this embodiment, a technique is used to determine early the correspondence between a word string that is inevitably mixed with an error such as a speech recognition result and a manuscript that is an information source of the word string. Thereby, the error included in the speech recognition result is automatically corrected.

[1.本形態を適用したシステムの構成]
図8は、本形態に係る音声認識誤り修正装置を含むシステムの構成の概略を示すブロック図である。図示するように、当該システムは、音声認識誤り修正装置100と、原稿テキスト記憶装置700と、音声認識装置720と、トランスデューサー構築装置740とを含んで構成される。
[1. System configuration to which this embodiment is applied]
FIG. 8 is a block diagram showing an outline of a system configuration including the speech recognition error correcting apparatus according to the present embodiment. As shown in the figure, the system includes a speech recognition error correction device 100, a manuscript text storage device 700, a speech recognition device 720, and a transducer construction device 740.

同図に示すシステムは、放送局におけるニュース番組に音声認識を用いて字幕を付与する場合に適用するための音声認識誤り修正装置600を含む。このような番組における発話音声は、概ね事前に用意された原稿テキストに基づいているという特徴がある。ところで、大規模なキー放送局では、字幕を放送するために、音声認識結果に含まれる認識誤りを人手で修正するためのオペレーターを配置している場合がある。一方で、地方放送局では、様々な事情によりそのようなオペレーターを配置することが難しいことが多い。本形態によれば、そのような地方放送局においても、オペレーターを配置することなく、音声認識謝りの修正を行うことができるようになる。   The system shown in the figure includes a speech recognition error correction apparatus 600 for application when subtitles are added to a news program at a broadcasting station using speech recognition. The utterance voice in such a program is characterized in that it is generally based on a manuscript text prepared in advance. By the way, in a large-scale key broadcasting station, there is a case where an operator for manually correcting a recognition error included in a speech recognition result is arranged in order to broadcast subtitles. On the other hand, local broadcasters often find it difficult to locate such operators due to various circumstances. According to this embodiment, even in such a local broadcasting station, it becomes possible to correct the speech recognition apologization without arranging an operator.

音声認識誤り修正装置600は、音声認識装置720が出力する認識結果の単語列(認識単語列)を入力として受け付け、予め記憶した対応原稿の単語列を推定することで、認識単語列に含まれる誤りを修正するものである。
ここで、音声認識誤り修正装置600が推定処理のために予め記憶した情報は、原稿テキスト記憶装置700に記憶されている原稿テキストを予め読み込んで構築された対応原稿の集合である。この対応原稿の集合は、状態を表すノードと、ノード間の状態遷移を表す枝(アーク)とをネットワーク(有向グラフ)として有する重み付き有限状態トランスデューサー(Weighted Finite State Transducer:以下、「WFST」、または単に「有限状態トランスデューサー」という)で表される。
音声認識誤り修正装置600は、WFSTのネットワーク上で最良(最尤)仮説を逐次調べ、WFST上の対応原稿の単語列と認識単語列との編集距離を基準に、全ての認識結果の単語列の入力を待たずに最終最良仮説を近似して部分的に修正結果を逐次確定する。
The speech recognition error correction apparatus 600 accepts a recognition result word string (recognition word string) output from the speech recognition apparatus 720 as an input, and estimates a word string of a corresponding document stored in advance, thereby being included in the recognition word string. It corrects errors.
Here, the information stored in advance for the estimation process by the speech recognition error correction apparatus 600 is a set of corresponding originals constructed by reading in advance the original text stored in the original text storage device 700. This set of corresponding manuscripts includes a weighted finite state transducer (hereinafter referred to as “WFST”) having nodes representing states and branches (arcs) representing state transitions between the nodes as a network (directed graph). Or simply "finite state transducer").
The speech recognition error correction apparatus 600 sequentially checks the best (maximum likelihood) hypothesis on the WFST network, and based on the edit distance between the word string of the corresponding manuscript on the WFST and the recognized word string, the word strings of all recognition results. Without waiting for input, the final best hypothesis is approximated and the correction results are partially determined sequentially.

音声認識誤り修正装置600は、音声認識装置720から認識結果の単語が入力されるのに対応して、WFSTを用いて、入力単語を受理可能な遷移を求めてそのスコアを計算し、累積スコアに対する閾値を用いて枝刈りを行いながら、ビタビアルゴリズム(Viterbi Algorithm)による探索(ビタビ探索)を用いる。なお、ビタビアルゴリズムは、既存の技術であり、受信系列に対して送信符号に最も近い符号系列、即ち最大尤度の符号系列を推定する際に、トレリス線図を用いた探索を行う、効果的な方法である。   In response to the recognition result word being input from the speech recognition device 720, the speech recognition error correction device 600 uses WFST to obtain a transition that can accept the input word, calculates the score, and accumulates the score. A search (Viterbi search) using a Viterbi algorithm is used while pruning using a threshold for. The Viterbi algorithm is an existing technique, and is effective in performing a search using a trellis diagram when estimating a code sequence closest to a transmission code with respect to a received sequence, that is, a code sequence having the maximum likelihood. It is a simple method.

通常のビタビ探索では、全ての入力が観測されてから、最もスコアが良くなるパスをトレースバックして最良仮説を出力する。そのため、通常の探索方法では、全ての入力が観測され終わる前に、古い入力から順に逐次修正結果を出力するといったことはできない。例えば、テレビ放送番組の放送音声を認識した結果から字幕を制作してリアルタイムでテレビ画面の画像に重畳する場合を想定すると、通常のビタビ探索による最尤系列は番組の最後まで単語を入力しないと確定することができない。これでは番組が終了してしまうことになるので、このような運用に対して通常のビタビ探索は不適である。   In normal Viterbi search, after all the inputs are observed, the path with the best score is traced back and the best hypothesis is output. Therefore, in the normal search method, it is not possible to output the correction results sequentially from the oldest input before all the inputs are observed. For example, assuming that the subtitles are produced from the result of recognizing the broadcast sound of a TV broadcast program and superimposed on the image of the TV screen in real time, the maximum likelihood sequence by the normal Viterbi search must input words until the end of the program It cannot be confirmed. This will end the program, so normal Viterbi search is not suitable for such operations.

一方、本形態による音声認識誤り修正装置600は、ビタビ探索を用いつつも、適時に、最尤系列を逐次近似してトレースバックする。すなわち、予め定められた処理開始条件が満たされる度に、その時点で最もスコアが良くなるパスをトレースバックして、確定できる出力遷移を決定するので、修正結果を逐次出力することができる。ここでトレースバックされるパスは、最良仮説の近似であるが、各出力遷移に対応する入力単語列と、原稿の単語列との編集距離を信頼度の基準にして同パスを確定するか否かを決定して近似精度の向上をはかる。なお、その詳細については後で説明する。   On the other hand, the speech recognition error correction apparatus 600 according to the present embodiment performs traceback by approximating the maximum likelihood sequence in a timely manner while using the Viterbi search. That is, every time a predetermined processing start condition is satisfied, a path with the best score at that time is traced back and an output transition that can be determined is determined, so that correction results can be output sequentially. The path traced back here is an approximation of the best hypothesis, but whether or not the path is determined based on the reliability of the edit distance between the input word string corresponding to each output transition and the word string of the manuscript. To improve the approximation accuracy. Details thereof will be described later.

原稿テキスト記憶装置700は、原稿テキストのデータを記憶する。原稿テキストは、複数の記事を含む。各記事は、複数の文を含む。
原稿テキスト記憶装置700は、人が話す予定の内容をテキストに書き起こしたものの全体を記憶する。原稿テキスト記憶装置700は、例えば文、文章、段落といった単語列の区切りの単位や、そのテーマやトピック等の内容分類に応じて、多数の細分化された個別の内容を表すテキストを記憶する。このような個別の内容を、以下では単に原稿と呼ぶ。また、単語列の単位は一例として文である。
原稿テキスト記憶装置700は、例えばハードディスク装置や半導体メモリ等の一般的な記憶手段を用いて構築されている。原稿テキスト記憶装置700は、いわゆるクラウドサービスとして、通信ネットワーク等を通してアクセスされるものであっても良い。
The manuscript text storage device 700 stores manuscript text data. The manuscript text includes a plurality of articles. Each article includes a plurality of sentences.
The manuscript text storage device 700 stores the whole of what is scheduled to be spoken by a person in a text. The manuscript text storage device 700 stores texts representing a number of subdivided individual contents according to word string delimiter units such as sentences, sentences, and paragraphs, and content classifications such as themes and topics. Such individual contents are hereinafter simply referred to as a manuscript. The unit of the word string is a sentence as an example.
The document text storage device 700 is constructed by using a general storage means such as a hard disk device or a semiconductor memory. The document text storage device 700 may be accessed as a so-called cloud service through a communication network or the like.

音声認識装置720は、原稿テキスト記憶装置700に含まれる原稿701を人(アナウンサー等)が読み上げた発話音声を認識し、認識結果の単語列を出力する。
音声認識装置720は、生の音声データが入力された場合に、隠れマルコフモデル(HMM)による音響モデルと、言語モデルとを利用して、音声データを認識し、その認識した結果を認識単語列として生成するものである。本形態において、音声認識装置720は、特に限定されず、公知の技術を用いたものを採用することができる。
The speech recognition device 720 recognizes speech uttered by a person (such as an announcer) reading the document 701 included in the document text storage device 700, and outputs a word string as a recognition result.
When raw speech data is input, the speech recognition device 720 recognizes speech data using an acoustic model based on a hidden Markov model (HMM) and a language model, and recognizes the recognized result as a recognition word string. Is generated as In this embodiment, the voice recognition device 720 is not particularly limited, and a device using a known technique can be employed.

なお、後述するように、放送におけるニュース番組では、各ニュース項目に対して複数のバージョンの原稿が入稿されており、どのバージョンをどの順番で放送するのかは事前に確定できない。そのような状況で、音声認識装置720は、音声認識を行い、その発話音声に対して、そもそも、対応する原稿が存在するのか否かを即座に調べることが求められる。そのため、音声認識に用いる言語モデルは、高精度に音声認識結果と原稿との対応をとるために、原稿テキスト記憶装置700に記憶されているテキストデータを用いて予め適応化しておき、原稿通りに読み上げた場合の認識精度が高くなるようにしておくことが好ましい。   As will be described later, in a broadcast news program, a plurality of versions of a manuscript are submitted for each news item, and it is not possible to determine in advance which version will be broadcast in which order. In such a situation, the voice recognition device 720 is required to perform voice recognition and immediately check whether or not a corresponding document exists for the uttered voice. For this reason, the language model used for speech recognition is preliminarily adapted using text data stored in the document text storage device 700 so that the speech recognition result and the document can be accurately associated with each other. It is preferable that the recognition accuracy when reading is increased.

トランスデューサー構築装置740は、音声認識誤り修正装置600で利用する対応原稿の集合(対応原稿集合)としてWFSTを構築するものである。トランスデューサー構築装置740は、音声認識の対象となる読み上げ原稿、つまり、原稿テキスト記憶装置700に含まれる原稿文から、音声認識誤り修正装置600で利用するためのWFSTを事前に構築する。WFSTは、入力シンボルと出力シンボル、遷移重みを有する有限状態機械であり、単語と文などの異なる粒度の入出力を効率よく扱うことができる。このWFSTの構築については後で説明する。   The transducer constructing device 740 constructs a WFST as a set of corresponding manuscripts (corresponding manuscript set) used in the speech recognition error correcting device 600. The transducer construction device 740 constructs in advance a WFST to be used by the speech recognition error correction device 600 from a read-out document that is a target of speech recognition, that is, a document text included in the document text storage device 700. WFST is a finite state machine having input symbols, output symbols, and transition weights, and can efficiently handle input / output of different granularities such as words and sentences. The construction of this WFST will be described later.

トランスデューサー構築装置740は、図示するように、単語ネットワーク登録部741と、編集ネットワーク登録部742とを含んで構成される。   The transducer construction device 740 includes a word network registration unit 741 and an editing network registration unit 742 as shown in the figure.

単語ネットワーク登録部741は、原稿テキスト記憶装置700に含まれる原稿テキストを読み出し、予め定められた所定単位(例えば文単位)ごとに、以下に述べる一連の処理を行う。即ち、単語ネットワーク登録部741は、WFSTのネットワークの始点ノードから開始して、原稿テキスト記憶装置700から原稿テキストに含まれる単語を読み込む度に、その単語を受理するための状態遷移(入力遷移)の枝と新たなノードとを作成する。単語ネットワーク登録部741は、原稿内の所定単位(例えば文単位)の最後に至るまで、順次、読み込んだ各単語について上記の枝とノードの作成を行う。
そして、WFSTのネットワークにおいて、読み込んだ単語列の出力遷移の枝を追加して終点ノードに連結する。
The word network registration unit 741 reads the original text included in the original text storage device 700 and performs a series of processes described below for each predetermined unit (for example, sentence unit). That is, the word network registration unit 741 starts from the start point node of the WFST network, and every time a word included in the document text is read from the document text storage device 700, a state transition (input transition) for accepting the word is received. Create a branch and a new node. The word network registration unit 741 sequentially creates the above branches and nodes for each read word until the end of a predetermined unit (for example, sentence unit) in the document.
Then, in the WFST network, an output transition branch of the read word string is added and connected to the end node.

編集ネットワーク登録部742は、単語ネットワーク登録部741で作成されたWFSTのネットワークのノード間に、単語の置換に対応して任意の単語を受理する状態遷移を表す枝と、単語の挿入に対応して任意の単語を受理する状態遷移を表す枝と、単語の削除に対応して入力が無くても出力側に遷移する状態遷移を表す枝とを追加するものである。   The editing network registration unit 742 corresponds to a branch representing a state transition that accepts an arbitrary word corresponding to a word replacement and insertion of a word between nodes of the WFST network created by the word network registration unit 741. Thus, a branch representing a state transition that accepts an arbitrary word and a branch representing a state transition that transitions to the output side even if there is no input in response to the deletion of the word are added.

なお、本形態では、システムは、例えば下記の(A1)〜(A7)の条件下で動作する。
(A1)原稿テキスト記憶装置700に記憶されている原稿文のうちの複数の原稿文が音声認識対象として読みあげられる。
(A2)1つのニュース項目に対するニュース原稿も、いくつかの更新された版(バージョン)が用意されていて、どのバージョンの原稿が何時のニュース番組で読まれるのかを事前に確定することはできない。
(A3)複数の原稿文がどのような順番で読まれるのか事前には分かっていない。
(A4)原稿テキスト記憶装置700に含まれる原稿文の中には、読みあげられずにスキップされるものもある。
(A5)読む人(アナウンサー、キャスター、記者等)によっては、元の原稿をそのまま忠実に読むのではなく、視聴者への伝わりやすさ等を考慮して敢えて言い回しを変えてしまう場合や、読み誤りが生じる場合などがある。
(A6)音声認識装置720の認識誤りに起因する意昧不明な字幕を送出して視聴者に誤解を与えたり不快にさせたりすることを回避することを優先課題としたい。そのため、意味不明な認識結果の場合には送出せず、代わりに、事前に編集者により校正され内容が確認されている、発話内容に最も近いと自動推定された原稿(事前原稿)を字幕として送出する。
(A7)インタビュー部分などであって認識結果に対応する原稿が元々存在しない場合、自動推定は不可能なので、元原稿が無いインタビュー部分などについては字幕を送出しない。
In this embodiment, the system operates under the following conditions (A1) to (A7), for example.
(A1) A plurality of document sentences among the document sentences stored in the document text storage device 700 are read out as speech recognition targets.
(A2) A number of updated versions (versions) are also prepared for a news manuscript for one news item, and it is impossible to determine in advance which version of the manuscript will be read in the news program.
(A3) The order in which a plurality of manuscript sentences are read is not known in advance.
(A4) Some original texts included in the original text storage device 700 are skipped without being read out.
(A5) Some readers (announcers, casters, reporters, etc.) do not read the original manuscript faithfully, but may change the wording in consideration of ease of transmission to the viewer, An error may occur.
(A6) We want to make it a priority to avoid sending unclear captions due to recognition errors of the speech recognition device 720 to mislead or uncomfortable the viewer. Therefore, it is not sent in the case of an unknown recognition result, and instead, the subtitle is a manuscript (prior manuscript) that is automatically estimated to be the closest to the utterance content that has been proofread by the editor and confirmed in advance. Send it out.
(A7) If there is no original corresponding to the recognition result in an interview part or the like, automatic estimation is impossible, so no subtitles are transmitted for an interview part without an original.

[2.一般的なWFSTの例]
図9は、一般的なWFSTの例を示す概略図である。WFSTは、状態遷移の定義として表現される。状態遷移は、状態を表すノードと、状態遷移を表す枝と、を有する。なお、状態遷移のことを単に遷移という場合もある。図示するWFSTでは、入力シンボルを単語、出力シンボルを所定の単語列とする。また、この所定の単語列は、文である。同図において、ノードは楕円形で示している。また、枝は矢印付きの線で表している。つまり、枝は、方向を有している。
[2. General WFST example]
FIG. 9 is a schematic diagram illustrating an example of a general WFST. WFST is expressed as a definition of state transition. The state transition has a node representing the state and a branch representing the state transition. Note that state transition may be simply referred to as transition. In the illustrated WFST, an input symbol is a word and an output symbol is a predetermined word string. The predetermined word string is a sentence. In the figure, the nodes are indicated by ellipses. Further, the branches are represented by lines with arrows. That is, the branch has a direction.

同図では、楕円形の各ノードに、ノードを識別するための3桁の数字を付している。始点ノードはノード001であり、終点ノードはノード008である。この例では、始点と終点との間には、ノード002〜ノード007が直線状に並べられている。また、始点と終点との間には、上記のノード002〜ノード007の系列とは並列に、ノード010〜ノード015が直線状に並べられている。さらに、始点と終点との間には、上記のノード002〜ノード007の系列およびノード010〜ノード015の系列とは並列に、ノード018〜ノード023が直線状に並べられている。また、状態遷移を表す枝は、単語または<S>、<I>、<D>、<Emi1>、<Emi2>、<Emi3>、<eps>といった記号が付されている。また、状態遷移を表す枝は、遷移元のノードから遷移先のノードに向かって伸びている。   In the figure, each ellipse node is given a three-digit number for identifying the node. The start point node is node 001, and the end point node is node 008. In this example, nodes 002 to 007 are arranged in a straight line between the start point and the end point. Further, between the start point and the end point, the nodes 010 to 015 are arranged in a straight line in parallel with the above-described series of nodes 002 to 007. Furthermore, between the start point and the end point, the above-described series of nodes 002 to 007 and the series of nodes 010 to 015 are arranged in a straight line with nodes 018 to 023. Further, a branch representing a state transition is given a word or a symbol such as <S>, <I>, <D>, <Emi1>, <Emi2>, <Emi3>, <eps>. Further, the branch representing the state transition extends from the transition source node to the transition destination node.

図示する状態遷移について一般化して説明すると、このWFSTにおいては、各遷移に、(S/S:ω)のパラメーターが設定されている。ここで、Sは、その状態遷移が受理する単語入力を表す。また、Sは、その状態遷移が出力する単語列を表す。出力される単語列は、文または文の一部である。また、ωは状態遷移重みを表す。つまり、各遷移には、3つ組のパラメーターが設定されている。なお、図9では、便宜上、状態遷移が有するパラメーターのすべてを示しているわけではなく、各状態遷移に対応して、3つ組のパラメーターのうちのSまたはSのいずれかのみを示している。 The state transition shown in the figure is generalized and described. In this WFST, a parameter (S i / S o : ω) is set for each transition. Here, S i represents a word input accepted by the state transition. S o represents a word string output by the state transition. The output word string is a sentence or a part of a sentence. Ω represents a state transition weight. That is, a triple parameter is set for each transition. In FIG 9, for convenience, not illustrate all the parameters of a state transition has, in correspondence with each state transition, shows only one of the S i and S o of the three sets of parameters ing.

ここで、同図上に記載された単語を一般化して単語sと表記する。なお、アルファベットの大文字と小文字とを区別している。同図において、単語sは、原稿の単語列が含んでいる単語である。ある状態遷移に単語sが付加されているとき、当該状態遷移はその単語sが入力されたときにのみ起こることを表している。つまり、ある状態において、その状態を遷移元とする状態遷移に単語sが付されているとき、認識単語列の中の単語として単語sが入力された場合にのみその状態遷移が起こる。つまり、単語sが記載された状態遷移は、音声認識された単語sを受理して進む遷移である。なお、状態遷移が起こるとその遷移先の状態が次の状態となる。   Here, the word described in the figure is generalized and expressed as a word s. Note that uppercase and lowercase letters are distinguished. In the figure, a word s is a word included in the word string of the document. When a word s is added to a certain state transition, it indicates that the state transition occurs only when the word s is input. That is, in a certain state, when the word s is added to the state transition having the state as a transition source, the state transition occurs only when the word s is input as a word in the recognized word string. That is, the state transition in which the word s is described is a transition that proceeds by accepting the speech-recognized word s. When a state transition occurs, the transition destination state becomes the next state.

図示する状態遷移において、ノード002〜ノード007の系列は、「先月/の/関東甲信/地方/は/・・・」という単語列に対応する。但し、ここで、スラッシュ「/」は単語の区切りである。また、ノード010〜ノード015の系列は、「今週/も/まとまった/雨/は/・・・」という単語列に対応する。また、ノード018〜ノード023の系列は、「気象庁/に/より/ます/と/・・・」という単語列に対応する。このように、ここで構築するWFSTは、全ての原稿文を自由に接続できるネットワークである。   In the state transition shown in the figure, the sequence of the nodes 002 to 007 corresponds to the word string “Last month /// Kanto Koshin / local / ha /. Here, the slash “/” is a word break. The series of nodes 010 to 015 corresponds to the word string “This week / Moon / Matched / Rain / Ha /. The series of nodes 018 to 023 corresponds to the word string “Meteorological Agency / Nii / Yori / Masu / To / ...”. As described above, the WFST constructed here is a network that can freely connect all document texts.

同図において、単語sが記載された遷移についてのパラメーターは、(s/ε:0.0)で表される。つまり、この3つ組のパラメーターは、単語sを入力として受理し、出力がないことを表す。εは、単語がないことを表す記号である。つまり、出力他の語列が空である。また、3つ組のパラメーターは、遷移重みの値が0.0であることを表す。重みの値の設定方法はさまざまであるが、一例としては、ペナルティがない場合に遷移重みの値として0.0を用い、負の値の重みをペナルティとして用いることができる。状態遷移の定義に基づいて例えば現状態を推定する場合に、この遷移重みの値の所定の系列における総計をスコアとして用いることができる。一例として、同図において単語「先月」が付された状態遷移は、3つ組のパラメーターとしては、(先月/ε:0.0)で表される。   In the figure, the parameter for the transition in which the word s is described is represented by (s / ε: 0.0). That is, this triplet parameter accepts the word s as input and represents no output. ε is a symbol indicating that there is no word. That is, the output other word strings are empty. The triple parameter represents that the transition weight value is 0.0. There are various methods for setting the weight value. For example, when there is no penalty, 0.0 can be used as the transition weight value, and a negative weight can be used as the penalty. For example, when the current state is estimated based on the definition of the state transition, the total of the transition weight values in a predetermined series can be used as a score. As an example, the state transition to which the word “last month” is attached in the same figure is represented by (last month / ε: 0.0) as a triple parameter.

同図において、<S>が付された状態遷移は、置換単語を受理するための遷移である。つまり、原稿の単語列が含んでいるある単語sの位置に対応する認識単語列の位置に入力した単語が、原稿のある単語sとは異なる任意の単語に置換されていたときに、その置換単語を受理するための遷移である。以下、原稿の単語列が含んでいるある単語sの位置において、この単語sとは異なる任意の単語のことを、任意の単語*と表記する。アスタリスクは、ワイルドカードを表す表記である。この置換には、例えば「再開」が同音異義語の「再会」に翻字されて認識された場合も含まれる。   In the figure, a state transition with <S> is a transition for accepting a replacement word. That is, when the word input at the position of the recognized word string corresponding to the position of a certain word s included in the document word string is replaced with an arbitrary word different from the word s on the document, the replacement is performed. A transition for accepting a word. Hereinafter, an arbitrary word different from the word s at the position of a certain word s included in the word string of the document is referred to as an arbitrary word *. The asterisk is a notation representing a wild card. This replacement includes, for example, a case where “restart” is recognized as a transliteration of the homonym “reunion”.

同図において、<S>が付された状態遷移は、任意の単語*を受理可能である。この<S>が記載された遷移についてのパラメーターは(*/ε:ωs)で表される。この3つ組表現においては、*は同遷移が受理できる任意の単語入力を表し、εはこの遷移で出力は無いことを意昧する。また、ωsは遷移重みの1つであって、この遷移に対して単語sとは異なる任意の単語*が入力されたときに課すペナルティ(以下、置換ペナルティという)を意味する。この置換ペナルティωsは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、<S>が付された状態遷移は、3つ組のパラメーターとしては、 (*/ε:−1.0)と表すことができる。 In the figure, a state transition with <S> can accept any word *. The parameter for the transition in which <S> is described is represented by (* / ε: ω s ). In this triplet representation, * represents any word input that the transition can accept, and ε means there is no output at this transition. Further, ω s is one of transition weights, and means a penalty imposed on the transition when an arbitrary word * different from the word s is input (hereinafter referred to as a replacement penalty). This replacement penalty ω s is expressed by a numerical value that lowers the node score, and for example, −1.0 is used. For example, a state transition with <S> can be expressed as (* / ε: -1.0) as a triple parameter.

同図において、<I>が付された状態遷移は、挿入単語を受理するための遷移である。つまり、発話者に起因するなどして、発話内容に情報の追加や言いよどみによる分節などの繰り返しがあった場合、原稿どおり又は置換されたと認識された単語列に続く位置に挿入された単語を受理するための遷移である。また、音声認識装置220に起因して、原稿通りならば1単語と認識すべきところを、複数単語として認識するような認識誤りで生じて、原稿通りの1単語に続く位置に挿入された単語を受理するためにも、<I>が付された状態遷移を用いることができる。   In the figure, a state transition with <I> is a transition for accepting an insertion word. In other words, if there is a repetition of information addition or segmentation due to utterance due to the speaker, etc., the word inserted at the position following the word string recognized as the original or replaced is accepted. It is a transition to do. In addition, due to the voice recognition device 220, a word inserted in a position following the one word as the manuscript is caused by a recognition error that recognizes a word that should be recognized as the manuscript as a plurality of words if it is as the manuscript. Can also be used for state transitions marked with <I>.

同図において、<I>が付された状態遷移は、任意の単語*を受理可能である。この<I>が記載された遷移についてのパラメーターは、3つ組による表現で、(*/ε:ωi)で表される。ここで、*は任意の単語入力を表し、εは空の単語を表す。つまり、この状態遷移は、任意の単語を受理し、出力単語を持たない。また、ωiは遷移重みの1つであって、この遷移に対して任意の単語*が入力されたときに課すペナルティ(以下、挿入ペナルティという)を意味する。この挿入ペナルティωiは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、<I>が付された状態遷移は、3つ組のパラメーターで表すと、(*/ε:−1.0)である。
なお、<I>が付された状態遷移における遷移先の状態は、同遷移における遷移元の状態と同じである。
In the figure, the state transition with <I> can accept any word *. The parameter for the transition in which <I> is described is expressed by a triplet (* / ε: ω i ). Here, * represents an arbitrary word input, and ε represents an empty word. That is, this state transition accepts an arbitrary word and has no output word. Further, ω i is one of transition weights, and means a penalty imposed when an arbitrary word * is input for this transition (hereinafter referred to as an insertion penalty). This insertion penalty ω i is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, a state transition marked with <I> is (* / ε: −1.0) in terms of a triple parameter.
It should be noted that the transition destination state in the state transition with <I> is the same as the transition source state in the transition.

同図において、<D>が付された状態遷移は、脱落単語を受理するための遷移である。つまり、発話者に起因するなどして、発話内容の一部に句などの脱落があった場合、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。また、音声認識装置220に起因して、原稿通りならば複数単語と認識すべきところを、単語が削除されて1単語として認識するような認識誤りで生じて、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。   In the figure, a state transition with <D> is a transition for accepting a dropped word. That is, this is a transition for specifying the position of a word dropped from the original in the recognized word string when a phrase or the like is dropped in a part of the utterance content due to the speaker. In addition, due to the voice recognition device 220, a word that should be recognized as a plurality of words according to the original is caused by a recognition error in which the word is deleted and recognized as one word, and is dropped from the original in the recognized word string. It is a transition for specifying the position of a word.

同図において、<D>が付された状態遷移は、単語の入力が無くても起こり得る遷移である。この<D>が記載された遷移についての3つ組のパラメーターは、(ε/ε:ωd)で表される。ここで、スラッシュの前のεは、この遷移で受理する入力が無いことを表す。また、スラッシュの後のεは、この遷移で出力が無いことを意昧する。また、ωdは遷移重みの1つであって、この遷移で単語が脱落したときに課すペナルティ(以下、脱落ペナルティという)を意味する。この脱落ペナルティωdは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、図9で<D>が記載された遷移は、3つ組のパラメーターで表すと、(ε/ε:−1.0)である。
なお、<D>が付された状態遷移における遷移元および遷移先の状態は、脱落する単語に関する状態遷移と同じである。例えば、ノード002からノード003への、<D>が付された状態遷移は、並列する単語「の」が脱落したときにもノード002からノード003へ遷移を可能とする(ただし、上記の脱落ペナルティを伴う)ものである。
In the figure, a state transition with <D> is a transition that can occur even if no word is input. The triple parameter for the transition in which <D> is described is represented by (ε / ε: ω d ). Here, ε before the slash indicates that there is no input accepted in this transition. Also, ε after the slash means that there is no output at this transition. Further, ω d is one of transition weights, and means a penalty imposed when a word is dropped in this transition (hereinafter referred to as a drop penalty). This dropout penalty ω d is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, the transition in which <D> is described in FIG. 9 is (ε / ε: −1.0) in terms of a triple parameter.
It should be noted that the transition source and transition destination states in the state transitions marked with <D> are the same as the state transitions relating to the dropped words. For example, the state transition with <D> from the node 002 to the node 003 enables the transition from the node 002 to the node 003 even when the parallel word “no” is omitted (however, the above-described dropping) With a penalty).

同図において、<Emi1>や<Emi2>や<Emi3>が付された状態遷移は、所定の単語列として文を出力するための遷移である。ここで出力される文が、音声認識処理によって認識された単語列の修正結果である。これらの<Emi1>や<Emi2>や<Emi3>が付された遷移についてのパラメーターは(ε/L:0.0)で表される。ここで、εはこの遷移において単語の入力が無いことを表す。また、Lはこの遷移で出力される単語列(文)がLであることを表す。   In the figure, the state transitions to which <Emi1>, <Emi2>, and <Emi3> are attached are transitions for outputting a sentence as a predetermined word string. The sentence output here is the correction result of the word string recognized by the speech recognition process. The parameter for the transition to which <Emi1>, <Emi2>, and <Emi3> are attached is represented by (ε / L: 0.0). Here, ε represents that no word is input in this transition. L indicates that the word string (sentence) output in this transition is L.

例えば、<Emi1>が付された状態遷移は、3つ組のパラメーターで表すと、(ε/先月の関東甲信地方は…:0.0)である。つまり、この場合、Lは、始点ノード001からノード002を経由してノード007に至る各遷移に並べられた単語列「先月/の/関東甲信/地方/は/…」をすべて順番に(直列に)繋げた単語列である。なお、パラメーターにおける0.0は遷移重みの1つであって、この遷移に対して文を出力するときには、ペナルティが課されないことを意味する。なお、<Emi2>が付された状態遷移のパラメーターは、同様に、(ε/今週もまとまった雨は…:0.0)である。また、なお、<Emi3>が付された状態遷移のパラメーターは、同様に、(ε/気象庁によりますと…:0.0)である。   For example, a state transition to which <Emi1> is attached is represented by three parameters (ε / Last Kanto Koshin region ...: 0.0). In other words, in this case, L is in order (in series) all the word strings “last month /// Kanto Koshin / local / ha / ...” arranged in each transition from the start node 001 to the node 007 via the node 002. N) Connected word strings. Note that 0.0 in the parameter is one of transition weights, and means that no penalty is imposed when a sentence is output for this transition. Similarly, the parameter of the state transition to which <Emi2> is attached is (ε / rains gathered in this week ...: 0.0). In addition, the parameter of the state transition to which <Emi3> is attached is similarly (ε / 0.0 by the JMA).

同図において、<eps>が記載された遷移は、終点ノードと始点ノードを連結する遷移であり、イプシロン遷移(ε遷移)と呼ばれている。<eps>が付された状態遷移は、原稿テキスト集合に含まれる所定の単語列(文)が、連続して発話されるという拘束を与える遷移である。<eps>が付された状態遷移についてのパラメーターは(ε/ε:ωu)で表される。ここで、スラッシュの前のεは、この遷移で単語の入力が無いことを表す。また、スラッシュの後のεは、この遷移で出力が無いことを表す。また、ωuは遷移重みの1つであって、適切な重み(数値)を与えることにより、WFSTは、より長く一致する文のスコアを高くすることができるようになる。 In the figure, a transition in which <eps> is described is a transition connecting an end point node and a start point node, and is called an epsilon transition (ε transition). The state transition with <eps> is a transition that gives a constraint that a predetermined word string (sentence) included in the document text set is continuously spoken. The parameter for the state transition with <eps> is expressed by (ε / ε: ω u ). Here, ε before the slash indicates that no word is input in this transition. In addition, ε after the slash indicates that there is no output in this transition. Also, ω u is one of transition weights, and by giving an appropriate weight (numerical value), the WFST can increase the score of sentences that match longer.

[3.本形態におけるWFST]
図10は、本形態において用いるWFSTの例を示す概略図である。図9を用いて説明した一般的なWFSTと、本形態で用いるWFSTの違いを中心に、以下、説明する。
[3. WFST in this embodiment]
FIG. 10 is a schematic diagram showing an example of WFST used in this embodiment. The following description will focus on the difference between the general WFST described with reference to FIG. 9 and the WFST used in this embodiment.

図10に示すWFSTもまた、ノード(状態)と枝(状態遷移)から成る状態遷移図で表される。同図では、ノードを黒丸または黒四角の記号で表し、枝を矢印付きの線で表す。各ノードには、ノードを識別するための3桁の整数を付している。同図に示す状態遷移図においても、始点のノード601と終点のノード608が存在する。そして、例示する状態遷移図においては、始点のノード601から終点のノード608へ、並列する2本の系列が存在する。その第1の系列は、始点のノード601から、ノード602〜ノード607を経て、終点のノード608に至る。また第2の系列は、始点のノード601から、ノード612〜ノード617を経て、終点のノード608に至る。これらの各系列が、原稿テキストにおける文に対応する。ここでは、簡単のために2文のみを示しているが、現実には文の数に制約はない。そして、終点ノード608から始点ノード601に戻るための枝(前述の、イプシロン遷移)が存在する。   The WFST shown in FIG. 10 is also represented by a state transition diagram composed of nodes (states) and branches (state transitions). In the figure, nodes are represented by black circles or black square symbols, and branches are represented by lines with arrows. Each node is given a three-digit integer for identifying the node. Also in the state transition diagram shown in the figure, there are a start point node 601 and an end point node 608. In the state transition diagram shown as an example, there are two sequences in parallel from the start node 601 to the end node 608. The first sequence reaches from the node 601 at the start point to the node 608 at the end point through the nodes 602 to 607. Further, the second series reaches from the start node 601 to the end node 608 via the nodes 612 to 617. Each of these series corresponds to a sentence in the manuscript text. Here, only two sentences are shown for the sake of simplicity, but in reality there is no restriction on the number of sentences. A branch (the above-described epsilon transition) for returning from the end node 608 to the start node 601 exists.

各々の状態遷移は、遷移元の状態と、遷移先の状態と、入力記号(単語)と、出力記号(単語列)と、遷移重みの値で定義される。一例として、同図において、ノード602からノード603への状態遷移は、受理する入力単語がWであり、出力する記号はε(つまり、出力単語はない)である。また別の例として、同図において、ノード614からノード615への状態遷移は、受理する記号がε(つまり受理する単語はない)であり、出力する記号はCという単語列である。 Each state transition is defined by a transition source state, a transition destination state, an input symbol (word), an output symbol (word string), and a transition weight value. As an example, in the figure, the state transition from node 602 to node 603, an input word to accept a is W 2, the symbol to be output is epsilon (i.e., the output word is not). As another example, in the figure, the state transition from node 614 to node 615 is the symbol for receiving the epsilon (i.e. no word to accept), symbols output from a word string of C 3.

なお、同図においては、状態遷移の重みの表示を省略している。また、同図においては、音声認識誤りを受理するための遷移を省略している。つまり、置換単語を受理するための状態遷移や、挿入単語を受理するための状態遷移や、脱落を許容するための状態遷移の表示を省略している。   In the figure, the display of the weight of state transition is omitted. Further, in the figure, a transition for accepting a speech recognition error is omitted. That is, the state transition for accepting a replacement word, the state transition for accepting an insertion word, and the state transition for allowing omission are omitted.

同図に示すWFSTの特徴は、原稿文をチャンク(chunk,かたまり)に分割し、チャンクの切れ目における状態遷移として出力遷移を配置した構成としている点である。なお、出力遷移とは、出力シンボルが空ではない状態遷移である。つまり、文の最後だけではなく、文の途中における状態遷移でも単語列を出力する場合がある。同図における具体例としては、原稿文(W,W,W,W,W)を、oとoという複数のチャンクに分割している。チャンクoは単語列(W,W,W)であり、チャンクoは単語列(W,W)である。そして、チャンクoとoとの間に、入力記号がε(つまり、入力単語がない)であり出力記号がCという出力遷移を設けている。なお、ノード607からノード608への状態遷移は、文末での出力遷移であり、その出力記号はCである。同様に、原稿文(W,W,W,W,W10)もまた、o(不図示)とo(不図示)という複数のチャンクに分割している。チャンクoは単語列(W,W,W)であり、チャンクoは単語列(W,W10)である。そして、チャンクoの後には、単語列Cを出力する出力遷移が設けられている。また、チャンクoの後には、単語列Cを出力する出力遷移が設けられている。 A feature of the WFST shown in the figure is that a document sentence is divided into chunks, and output transitions are arranged as state transitions at chunk breaks. The output transition is a state transition in which the output symbol is not empty. That is, the word string may be output not only at the end of the sentence but also at a state transition in the middle of the sentence. As a specific example in the figure, an original sentence (W 1 , W 2 , W 3 , W 4 , W 5 ) is divided into a plurality of chunks of o 1 and o 2 . Chunk o 1 is a word string (W 1 , W 2 , W 3 ), and chunk o 2 is a word string (W 4 , W 5 ). An output transition in which the input symbol is ε (that is, there is no input word) and the output symbol is C 1 is provided between the chunks o 1 and o 2 . The state transition from node 607 to node 608 is the output transitions at the end of the sentence, the output symbol is C 2. Similarly, the original text (W 6 , W 7 , W 8 , W 9 , W 10 ) is also divided into a plurality of chunks o 3 (not shown) and o 4 (not shown). Chunk o 3 is a word string (W 6 , W 7 , W 8 ), and chunk o 4 is a word string (W 9 , W 10 ). Then, after the chunk o 3 , an output transition for outputting the word string C 3 is provided. Further, after the chunk o 4 , an output transition for outputting the word string C 4 is provided.

上記のように、本形態では、文をチャンクに分割し、チャンクの終端に出力遷移を設けている。なお、文のチャンクへの分割のしかたは任意である。文中の文法的にあるいは意味的に切れ易い箇所でチャンクへの分割を行っても良いし(例えば、構文上の句の単位できるなど)、所定の単語数で機械的に複数のチャンクへの分割を行っても良い。また、読みやすさのために記者またはアナウンサーが改行している箇所で分割しても良い。また、原稿中の文の重複度と必要とする認識誤りの訂正能力に応じて適切な長さのチャンクに分割しても良い。また、許容される字幕の表示遅れに応じて、適切な長さのチャンクに分割しても良い。長い単語列をチャンクとして設定すると、修正精度は高くなるが、送出する字幕単語列の確定が遅くなる。短い単語列をチャンクとして設定すると、送出する字幕単語列の確定は早く行うことができるようになるが、修正精度は低下する。また、期待される音声認識の認識精度と原稿と読み上げ音声の一致度合いに応じて適切な長さのチャンクへの分割を行うようにしても良い。   As described above, in this embodiment, a sentence is divided into chunks and an output transition is provided at the end of the chunk. The method of dividing the sentence into chunks is arbitrary. Divide into chunks at grammatically or semantically breakable points in the sentence (for example, syntactic phrases can be used), or mechanically divide into multiple chunks with a predetermined number of words May be. Moreover, you may divide | segment in the location where the reporter or the announcer has started a new line for readability. Further, it may be divided into chunks of an appropriate length according to the degree of redundancy of sentences in the original and the required recognition error correction capability. Further, it may be divided into chunks of an appropriate length according to the allowable subtitle display delay. When a long word string is set as a chunk, the correction accuracy is improved, but the determination of the subtitle word string to be transmitted is delayed. If a short word string is set as a chunk, the subtitle word string to be sent can be determined quickly, but the correction accuracy is reduced. Further, division into chunks of an appropriate length may be performed according to the expected recognition accuracy of voice recognition and the degree of matching between the original and the reading voice.

[4.WFSTの構築方法]
次に、トランスデューサー構築装置740によるWFSTの構築方法について説明する。トランスデューサー構築装置740がWFSTを構築するに当たり、原稿テキスト記憶装置700に含まれる原稿テキストは、予め文に分割しておく。なお、文の最後は句点によって区切られる場合には、句点を目印に分割することができる。また、原稿テキストの構文解析を行うことによって、構文ルールから文の切れ目を検出して文への分割を行うようにしても良い。また、人手によって目印がつけられた箇所で文への分割を行うようにしたりしても良い。
[4. WFST construction method]
Next, a WFST construction method by the transducer construction device 740 will be described. When the transducer construction device 740 constructs a WFST, the original text included in the original text storage device 700 is divided into sentences in advance. If the end of a sentence is delimited by a punctuation mark, the punctuation mark can be divided into landmarks. Further, by analyzing the text of the manuscript, sentence breaks may be detected from the syntax rules and divided into sentences. Further, it may be possible to divide into sentences at places marked manually.

本形態では、原稿テキスト記憶装置700に記憶されているテキストは、ニュース番組で取り上げられる可能性のある読み原稿である。ここで用意される原稿は、複数のニュース項目のための原稿を含む。また、各ニュース項目は、複数の文を含む。本形態では、ニュース項目が読まれる順番、あるいは文が読まれる順番を予め特定しておく必要がない。読まれる可能性のある原稿をすべて用意して、原稿テキスト記憶装置700に記憶させておけばよい。また、それらの原稿のうち、結果的に読まれないニュース項目や読まれない文があっても良い。   In this embodiment, the text stored in the manuscript text storage device 700 is a reading manuscript that may be picked up by a news program. The manuscript prepared here includes manuscripts for a plurality of news items. Each news item includes a plurality of sentences. In this embodiment, it is not necessary to specify in advance the order in which news items are read or the order in which sentences are read. All documents that may be read may be prepared and stored in the document text storage device 700. In addition, among these manuscripts, there may be news items and sentences that cannot be read as a result.

なお、WFSTの構築に先立って予め人手により原稿を整形しておくようにする。この整形により、必ず連続して読み上げられる単語列(文)を一つの文の単位としてまとめる。また、この整形により、原稿中において読み飛ばされる可能性のある部分を別の文として切り離しておく。   Prior to the construction of the WFST, the manuscript is previously shaped manually. By this shaping, word strings (sentences) that are always read continuously are collected as one sentence unit. Also, by this shaping, a portion that may be skipped in the document is separated as another sentence.

また、文は、予めチャンクに分割しておく。チャンク(即ち、出力遷移を行うまでの単語列の単位)を長く設定すると修正精度は高くなるが、出力する単語列の確定が遅くなる。逆に、チャンクを短く設定すると、送出する字幕単語列の確定は速くなるが修正精度が低下する。よって、どのような単位を利用するかについては、期待される音声認識の認識精度と、原稿と読み上げ音声の一致度合いと、に応じて適宜設計すればよい。いかなる方法で文のチャンクへの分割を行うにしても、チャンクは、文よりは短い単位である。
そして、トランスデューサー構築装置740は、チャンクを受理した直後に出力遷移を配置するように、WFSTを構成する。
The sentence is divided into chunks in advance. If the chunk (that is, the unit of the word string until the output transition is performed) is set long, the correction accuracy increases, but the determination of the word string to be output is delayed. On the other hand, if the chunk is set to be short, the determination of the subtitle word string to be sent out becomes fast, but the correction accuracy decreases. Therefore, what unit should be used may be appropriately designed according to the expected recognition accuracy of voice recognition and the degree of matching between the original and the reading voice. Whatever method is used to divide a sentence into chunks, a chunk is a shorter unit than a sentence.
The transducer construction device 740 then configures the WFST to place the output transition immediately after receiving the chunk.

トランスデューサー構築装置740による具体的なWFST構築手順は、次の通りである。WFSTの構築は、まず、WFSTの始点から開始される。
トランスデューサー構築装置740は、原稿テキスト記憶装置700から一単語ずつ読み込む度に、同単語を受理する重み0の遷移と新たなノードとを順次作成していく。ここで、重み0の遷移とは3つ組のパラメーターで表すと、(s/ε:0.0)のことである。なお、sは単語である。そして、チャンクを一単位として、そのチャンクの後に出力遷移を追加してから、次のチャンクに含まれる各単語について同様の処理を繰り返す。なお、チャンクの終端が文の終端である場合には、最後のチャンクに関する出力遷移をWFSTの終点ノードに連結する。即ち、最後のチャンクに関する出力遷移の遷移先状態を、その終点ノードとする。
まだ更なる文が残っていたら、再び始点から始めて、上記の処理を繰り返す。
以下、原稿テキスト記憶装置700に含まれる全ての文についての処理を終えるまで、同様に繰り返す。
A specific WFST construction procedure by the transducer construction device 740 is as follows. The construction of the WFST is started from the start point of the WFST.
Each time the transducer construction device 740 reads one word at a time from the document text storage device 700, it sequentially creates a transition with a weight of 0 and a new node for accepting the word. Here, the transition of weight 0 means (s / ε: 0.0) when expressed by a triple parameter. Note that s is a word. Then, after adding an output transition after the chunk as a unit, the same processing is repeated for each word included in the next chunk. When the end of the chunk is the end of the sentence, the output transition related to the last chunk is connected to the end point node of WFST. That is, the transition destination state of the output transition related to the last chunk is set as the end node.
If there are more sentences left, start again from the starting point and repeat the above process.
Thereafter, the same processing is repeated until the processing for all sentences included in the document text storage device 700 is completed.

原稿テキスト記憶装置700からすべての原稿テキストを読み込み終えた後、次に、トランスデューサー構築装置740は、終点ノードと始点ノードとをイプシロン遷移で連結する。既に述べたように、イプシロン遷移とは、3つ組のパラメーターで表すと(ε/ε:ωu)という状態遷移ことである。なお、トランスデューサー構築装置740は、このイプシロン遷移のための重みωuとして適切な値を与える。これにより、WFSTは、より長く一致する文のスコアを高くすることができるようになる。またこれにより、WFSTは、他の文の接頭辞と一致する文が原稿中に存在するような場合にも、適切に動作できるようになる。そして、最後に、トランスデューサー構築装置740は、各単語の遷移に、置換、脱落、挿入を受理する遷移を追加する。なお、図10では、置換、脱落、挿入のための状態遷移を省略している。 After reading all the original texts from the original text storage device 700, the transducer construction device 740 next connects the end point node and the start point node with an epsilon transition. As already described, the epsilon transition is a state transition of (ε / ε: ω u ) in terms of a triple parameter. The transducer construction device 740 gives an appropriate value as the weight ω u for this epsilon transition. As a result, the WFST can increase the score of sentences that match longer. This also allows the WFST to operate properly even when a sentence that matches the prefix of another sentence exists in the document. Finally, the transducer construction device 740 adds a transition that accepts substitution, omission, and insertion to the transition of each word. In FIG. 10, state transitions for replacement, omission, and insertion are omitted.

[5.音声認識の適応化]
原稿をもとに読み上げられる音声を音声認識装置720が実際に認識するにあたり、予め、この原稿に含まれる単語列をもとに音声認識の言語モデルを適応化しておくことが望ましい。これにより、原稿通りに読み上げられた場合の音声認識の精度を高くすることができる。
[5. Adaptation of speech recognition]
When the speech recognition device 720 actually recognizes the speech read out based on the original, it is desirable to adapt the language model for speech recognition based on the word string included in the original in advance. As a result, it is possible to increase the accuracy of voice recognition when the text is read as it is.

[6.出力遷移からのトレースバック]
本形態では、トレースバックを開始するノードを、出力遷移の直前のノードのみに限定する。つまり、図10に例示したWFSTの状態遷移図において、トレースバックの対象となるノードは黒四角の記号で示したノードのみである。そして、黒丸の記号で示しているノードをトレースバックの対象としない。つまり、トレースバックの対象となるノードは、各チャンクの終端に当たるノードのみである。
[6. Traceback from output transition]
In this embodiment, the node that starts the traceback is limited to the node immediately before the output transition. That is, in the WFST state transition diagram illustrated in FIG. 10, only the nodes indicated by black square symbols are the target of the traceback. The nodes indicated by the black circle symbols are not subject to traceback. In other words, the node that is the target of traceback is only the node corresponding to the end of each chunk.

WFSTのすべてのノードを対象としてその最尤ノード(時刻tにおいてすべてのノードの中で最もスコアの高いノード)からトレースバックを行うのと比べて、本形態の上記の方法では、出力の遅延を短縮することができる。つまり、本形態では、音声認識処理の結果に応じた修正後の字幕の表示の遅延を短縮することができる。
なお、既に述べたWFSTの構築方法においては、文を予めチャンクに分割しておき、各チャンクの終端に続いて出力遷移を設けた。しかしながら、文をチャンクに分割しないようにして(言い換えれば、1文を1チャンクとして)、トレースバックを開始するノードを出力遷移の直前のノードのみに限定することも可能である。そしてこのような場合にも、すべてのノードを対象としてその最尤ノードからトレースバックを行うのと比べて、出力の遅延を短縮することができる。
Compared to performing traceback for all nodes of WFST from the maximum likelihood node (the node having the highest score among all the nodes at time t), the above method of this embodiment reduces the output delay. It can be shortened. That is, in this embodiment, it is possible to reduce the delay in displaying the corrected caption according to the result of the speech recognition process.
In the WFST construction method already described, a sentence is divided into chunks in advance, and an output transition is provided following the end of each chunk. However, it is also possible not to divide the sentence into chunks (in other words, one sentence as one chunk) and to limit the node that starts traceback to only the node immediately before the output transition. In such a case, the output delay can be shortened as compared with the case where the traceback is performed from the maximum likelihood node for all nodes.

[7.字幕文出力の確定方法]
音声認識誤り修正装置600が、出力する単語列を確定するための方法について説明する。
時刻tにおける出力遷移の直前の最尤ノード(言い換えれば、チャンクの終端に当たるノードの中の最尤ノード)であるn(チルダ)(t)は、下の式(1)で表される。
[7. How to confirm subtitle text output]
A method for the speech recognition error correction apparatus 600 to determine a word string to be output will be described.
N (tilde) (t), which is the maximum likelihood node immediately before the output transition at time t (in other words, the maximum likelihood node in the node corresponding to the end of the chunk), is expressed by the following equation (1).

Figure 2016099515
Figure 2016099515

式(1)において、Qは、トレースバックの対象となるノードの集合である。つまり、Qは、出力遷移の直前のノードの集合である。nは、集合Qに属するノードである。そして、L(t)は、時刻tにおけるノードnのスコアである。なお、このスコアL(t)は、下の式(2)で表される。 In Expression (1), Q is a set of nodes that are subject to traceback. That is, Q is a set of nodes immediately before the output transition. n is a node belonging to the set Q. L n (t) is the score of node n at time t. The score L n (t) is expressed by the following formula (2).

Figure 2016099515
Figure 2016099515

式(2)において、eは状態遷移であり、eおよびeは、それぞれ、状態遷移eの遷移元および遷移先のノードである。またeは、状態遷移eの状態遷移重みの値である。また、eは、状態遷移eの入力記号である。そして、eは、単語W、ε(空入力)、*(いずれの入力にもマッチするワイルドカード)のいずれかである。つまり、式(2)に示すとおり、時刻tにおけるノードnのスコア(尤度)は、ノードnを遷移先ノードとするすべての状態遷移の中で、時刻t−1におけるその状態遷移eの遷移元ノードeのスコアに、その状態遷移eの重み値eを加算したものである。 In Expression (2), e is a state transition, and ef and et are the transition source and transition destination nodes of the state transition e, respectively. E w is the value of the state transition weight of the state transition e. E i is an input symbol of the state transition e. E i is one of the words W, ε (empty input), and * (wildcard that matches any input). That is, as shown in Expression (2), the score (likelihood) of the node n at the time t is the transition of the state transition e at the time t−1 among all the state transitions with the node n as the transition destination node. the score of the source node e f, is obtained by adding the weight value e w a state transition e.

上記の式(1)による最尤ノードを求めるために、音声認識誤り修正装置600は、スコアL(t)に関して、閾値による枝刈りを行いながら、効率的なビタビ探索を行う。 In order to obtain the maximum likelihood node according to the above equation (1), the speech recognition error correction apparatus 600 performs an efficient Viterbi search for the score L n (t) while performing pruning with a threshold.

そして、音声認識誤り修正装置600は、式(1)により求められた最尤ノードにたどり着くまでに通過した状態遷移eを、順次トレースバックして、状態遷移の系列を得る。既に出力済みの単語の時刻t−t´までトレースバックした結果はht−t´は、下の式(3)で表される。 Then, the speech recognition error correction apparatus 600 sequentially traces back the state transitions e passed until reaching the maximum likelihood node obtained by the equation (1) to obtain a state transition sequence. Already it results traced back to the time t-t'of already output word h t-t'is expressed by the following equation (3).

Figure 2016099515
Figure 2016099515

式(3)において、{et−t´,・・・}は、WFSTの始端を含まない状態遷移の集合である。また、{・・・,e}は、WFSTの終端を含まない状態遷移の集合である。そして、O(チルダ)は、下の式(4)で表されるように、始端と終端とに挟まれた区間l (つまり、l は文)の列である(k=1,2,・・・)。 In Equation (3), {e t−t ′ ,...} Is a set of state transitions that do not include the start of WFST. Also, {..., E t } is a set of state transitions that do not include the end of WFST. O (tilde) t is a sequence of a section l t k (that is, l t k is a sentence) sandwiched between the start and end, as expressed by the following expression (4) (k = 1, 2, ...).

Figure 2016099515
Figure 2016099515

式(4)において、rは、O(チルダ)に含まれる区間l (文)の数である。さらに、このl は、下の式(5)に示すように、チャンクの列である。 In Expression (4), r t is the number of sections l t k (sentences) included in O (tilde) t . Furthermore, this l t k is a sequence of chunks, as shown in equation (5) below.

Figure 2016099515
Figure 2016099515

式(5)において、mt,kは、区間l に含まれるチャンクの数である。
音声認識誤り修正装置600は、この区間l ごとに下の式(6)で表されるチャンクの列を出力する。つまり、下の式(6)で表されるものが、音声認識誤り修正装置600によって出力される字幕文である。
In equation (5), m t, k is the number of chunks included in the interval l t k .
The speech recognition error correction apparatus 600 outputs a chunk sequence represented by the following equation (6) for each section l t k . That is, what is expressed by the following formula (6) is a caption sentence output by the speech recognition error correction apparatus 600.

Figure 2016099515
Figure 2016099515

式(6)において、E(チルダ)(ot,k )は、誤り率に基づく誤りスコアである。また、Tは、誤りスコアに関する閾値であり、0<T<1である。誤りスコアE(チルダ)(ot,k )は、下の式(7)によって求められる。 In Equation (6), E (tilde) (o t, k u ) is an error score based on the error rate. T is a threshold value regarding the error score, and 0 <T <1. The error score E (tilde) (o t, k u ) is obtained by the following equation (7).

Figure 2016099515
Figure 2016099515

式(7)において、2入力の関数E(チルダ)(o,o)は、下の式(8)に示すように、E(チルダ)(o)とE(チルダ)(o)の、単語数の重みを付けた平均である。 In the equation (7), the two-input function E (tilde) (o 1 , o 2 ) is expressed by E (tilde) (o 1 ) and E (tilde) (o 2 ) as shown in the following equation (8). ) Of the word weighted average.

Figure 2016099515
Figure 2016099515

式(8)において、NとNは、それぞれ、チャンクoとoに含まれる単語の数である。また、E(チルダ)(o)は、チャンクoにおける受理単語数Nと、誤りを受理したことによる遷移の通過数Nとから求めた誤り率(編集距離)であり、下の式(9)で表される。 In Expression (8), N 1 and N 2 are the numbers of words included in chunks o 1 and o 2 , respectively. E (tilde) (o) is an error rate (edit distance) obtained from the number of accepted words N r in chunk o and the number of transitions N e due to acceptance of an error. 9).

Figure 2016099515
Figure 2016099515

つまり、式(7)に示した通り、区間l に含まれるチャンクot,k の誤りスコアであるE(チルダ)(ot,k )は、次に述べるように定義される。即ち、E(チルダ)(ot,k )は、チャンクot,k において式(9)で計算される誤り率と、ひとつ前のチャンクot,k u−1で計算される誤りスコアとの単語数による重み付き平均の値に基づく。ただし、その単語数による重み付き平均の値が所定の閾値Tよりも小さい場合には、E(チルダ)(ot,k )の値はゼロである(式(7)の右辺上段のケース)。一方、その単語数による重み付き平均の値が閾値T以上の場合にはその重み付き平均の値をそのままE(チルダ)(ot,k )の値とする(式(7)の右辺下段のケース)。このように、E(チルダ)(ot,k )の値は、ひとつ前のチャンクot,k u−1についてのE(チルダ)(ot,k u−1)の値に依存して定義されており、式(7)で再帰的に計算することにより出力を確定できる。 That is, as shown in the equation (7), E (tilde) (o t, k u ) , which is an error score of the chunks o t, k u included in the interval l t k , is defined as follows. . That is, the error E (tilde) (o t, k u), the chunk o t, and the error rate calculated by Equation (9) in the k u, the previous chunk o t, is calculated in the k u-1 Based on the score and the weighted average value by number of words. However, when the weighted average value based on the number of words is smaller than a predetermined threshold value T, the value of E (tilde) (o t, k u ) is zero (the upper case in the right side of Expression (7)). ). On the other hand, when the weighted average value based on the number of words is equal to or greater than the threshold value T, the weighted average value is directly used as the value of E (tilde) (o t, k u ) (lower right side of Expression (7)). Case). In this way, the value of E (tilde) (o t, k u) is dependent on the value of the previous chunk o t, E for k u-1 (tilde) (o t, k u- 1) The output can be determined by calculating recursively using equation (7).

なお、式(7)において場合分けして、閾値Tよりも低い場合の誤りスコアをカットオフして0にしていることにより、前のチャンクにおける誤りの程度が小さい場合には、後ろの方のチャンクまでその誤りスコアを波及させないようにしている。
なお、式(6)や式(7)に示した閾値Tの具体的な値は適宜定めればよいが、例えばT=0.5とする、あるいは0.4≦T≦0.6の範囲内の値とすることが好適である。Tの値が大きすぎると(1に近づくと)高い誤り率を許容してしまうという不都合がある。他方で、Tの値が小さすぎると誤りに対して厳格になりすぎて、本来読み上げられている原稿に対して出力できる字幕の密度が低くなり過ぎるという不都合がある。したがって、前記の0.4≦T≦0.6の範囲が好適であり、特にT=0.5とすることが好適である。
In addition, when the error score in the previous chunk is small by cutting off the error score when the value is lower than the threshold T to 0 by dividing into cases in Expression (7), The error score is not spread to the chunk.
Note that the specific value of the threshold T shown in the equations (6) and (7) may be determined as appropriate. For example, T = 0.5, or 0.4 ≦ T ≦ 0.6. It is preferable to set the value within the range. If the value of T is too large (approaching 1), a high error rate is allowed. On the other hand, if the value of T is too small, it becomes too strict against errors, and there is a disadvantage that the density of subtitles that can be output for a document that is originally read out becomes too low. Therefore, the range of 0.4 ≦ T ≦ 0.6 is preferable, and T = 0.5 is particularly preferable.

[8.音声認識誤り修正装置の構成]
次に、音声認識誤り修正装置の構成について説明する。
図11は、音声認識誤り修正装置600の概略機能構成を示す機能ブロック図である。図示するように、音声認識誤り修正装置600は、WFST記憶部610と、ノードデータ更新部620と、ノードデータ記憶部630と、原稿探索部640と、出力部650とを含んで構成される。
[8. Configuration of voice recognition error correction device]
Next, the configuration of the speech recognition error correction apparatus will be described.
FIG. 11 is a functional block diagram showing a schematic functional configuration of the speech recognition error correction apparatus 600. As illustrated, the speech recognition error correction apparatus 600 includes a WFST storage unit 610, a node data update unit 620, a node data storage unit 630, a document search unit 640, and an output unit 650.

WFST記憶部610(有限状態トランスデューサー情報記憶部)は、原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する。そして、WFST記憶部610は、出力シンボルが空でない状態遷移であるところの出力遷移を状態遷移の一部として含んで記憶している。また、原稿テキストに含まれる文を複数のチャンクに分割し、チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に出力遷移を設けたWFSTの、状態に関する情報および状態遷移に関する情報を記憶する。   A WFST storage unit 610 (a finite state transducer information storage unit) is a finite state transducer that performs state transition while sequentially receiving words input as speech recognition results corresponding to a document text. Information on the state of a finite state transducer that makes a state transition while accepting an error in a word included in the result, and includes a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition. Information is stored. The WFST storage unit 610 stores an output transition where the output symbol is a non-empty state transition as a part of the state transition. Also, information on the state and information on the state transition of the WFST in which a sentence included in the manuscript text is divided into a plurality of chunks and an output transition is provided after a state transition path that accepts a word included in the chunk as an input symbol. Remember.

具体的には、WFST記憶部610は、原稿テキスト記憶装置700(図8)に基づいて予めトランスデューサー構築装置740が構築したWFSTを記憶している。具体的には、WFST記憶部610は、状態遷移図(ネットワーク)と等価な情報を記憶する。その情報とは、状態(ノード)の識別情報およびその状態の属性情報と、状態遷移(枝)の識別情報およびその状態遷移の属性情報である。状態遷移の属性情報は、遷移元状態の識別情報と、遷移先状態の識別情報と、遷移に関する重みの値とを少なくとも含む。   Specifically, the WFST storage unit 610 stores the WFST constructed by the transducer construction device 740 in advance based on the document text storage device 700 (FIG. 8). Specifically, the WFST storage unit 610 stores information equivalent to the state transition diagram (network). The information includes state (node) identification information and state attribute information, state transition (branch) identification information and state transition attribute information. The state transition attribute information includes at least transition source state identification information, transition destination state identification information, and a weight value related to the transition.

ノードデータ更新部620は、原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた認識単語に応じて、WFSTにおける状態ごとの当該時刻(その時刻)でのスコアを算出し、算出された前記スコアを用いてノードデータ記憶部630を更新する。
具体的には、ノードデータ更新部620は、音声認識装置720が出力する認識単語列に含まれる単語の入力を受け付ける時刻毎に、WFSTのネットワーク上を遷移可能な状態のスコアをノードデータとして計算および更新するものである。ノードデータ更新部620は、例えば、音声認識装置720から認識単語を1単語受け付ける都度、WFST記憶部610に記憶されたWFSTを参照して逐次的にビタビ探索を行い、ノードデータ記憶部630に記憶されているノードデータを更新する。
The node data updating unit 620 receives an input of a recognized word that is a speech recognition result corresponding to the document text from the outside, and according to the received recognized word, a score at the time (that time) for each state in the WFST. And the node data storage unit 630 is updated using the calculated score.
Specifically, the node data update unit 620 calculates, as node data, a score of a state that can be transited on the WFST network at each time when an input of a word included in the recognized word string output by the speech recognition device 720 is received. And to update. For example, each time one word is received from the speech recognition device 720, the node data update unit 620 sequentially performs a Viterbi search with reference to the WFST stored in the WFST storage unit 610, and stores it in the node data storage unit 630. Update the node data.

ノードデータ更新部620は、認識単語列の一部として入力される単語に応じて、状態遷移した場合のスコアを計算する。ノードデータ更新部620は、状態遷移の重みの値に基づいて、スコアを計算する。WFSTの例として述べたように、対応原稿と一致する単語が原稿通りの順で入力された場合には、重みの値として「0」をスコアに加算する。対応原稿と異なる単語が入力された場合、重みの値として「−1]をスコアに加算する。この「−1」はペナルティの意味を有する。   The node data updating unit 620 calculates a score when the state transition is performed according to the word input as a part of the recognized word string. The node data update unit 620 calculates a score based on the value of the state transition weight. As described in the example of WFST, when words matching the corresponding original are input in the order of the original, “0” is added to the score as a weight value. When a word different from the corresponding manuscript is input, “−1” is added to the score as a weight value, and “−1” has a penalty meaning.

例えば、図9に示した例において、認識単語列として入力する単語列が、対応原稿と全く同じ単語列である場合、始点ノード001から、単語「先月」を受理して対応原稿の単語に対応する遷移を通ってノード002に進む。そして、この状態遷移に対応して、ノードデータ更新部620は、スコアに「0」を加算する。次に、ノード002から、例えば単語「の」を受理してノード003に進む。そして、この状態遷移に対応して、ノードデータ更新部620は、スコアに「0」を加算する。同様に、「関東甲信」、…を順次受理していくと、スコアには、各単語に対応する状態遷移の重みの値である「0」ずつ足していくことになる。   For example, in the example shown in FIG. 9, when the word string input as the recognition word string is exactly the same word string as the corresponding manuscript, the word “Last Month” is received from the start node 001 to correspond to the word of the corresponding manuscript. Go to node 002 through the transition to. Then, in response to this state transition, the node data update unit 620 adds “0” to the score. Next, for example, the word “no” is received from the node 002 and the process proceeds to the node 003. Then, in response to this state transition, the node data update unit 620 adds “0” to the score. Similarly, when “Kanto Koshin”,... Are sequentially received, “0” that is the value of the weight of state transition corresponding to each word is added to the score.

しかし他方で、例えば図9に示した例において、認識単語列として入力する単語列が、対応原稿と異なる単語列である場合、異なる状態遷移をする。つまり、始点ノード001から、例えば単語「先週」を受理すると、対応原稿の単語「先月」が置換されているので、置換に対応する遷移を通ってノード002に進む。この場合、ノードデータ更新部620は、スコアにその状態遷移の重みの値である「−1」(ペナルティ)を加算する。また、挿入誤りや脱落誤りに対応する遷移を通った場合にも、同様にノードデータ更新部620は、スコアにペナルティの「−1」を加算する。   On the other hand, for example, in the example shown in FIG. 9, when the word string input as the recognition word string is a word string different from the corresponding document, the state transition is different. In other words, when the word “Last week” is received from the start point node 001, for example, the word “Last month” of the corresponding document is replaced, so the process proceeds to node 002 through a transition corresponding to the replacement. In this case, the node data update unit 620 adds “−1” (penalty) that is the value of the weight of the state transition to the score. Similarly, the node data update unit 620 adds a penalty “−1” to the score even when a transition corresponding to an insertion error or a drop error is passed.

このように、入力される認識単語がWFSTにおける状態遷移で受理する単語sと同じであった場合に、その遷移におけるスコアが最良となる。一方、置換、挿入、削除の編集に相当する状態遷移は、スコアが悪化する要因となる。ここで「編集」とは、本来あるべき単語を置換したり、削除したり、本来あるべき単語ではないものを挿入したりすることによって得られる結果を言う。例えば<D>が記載された状態遷移は、マッチする入力単語が無くても遷移できるが、<D>が記載された遷移だけを通るパスの場合、その遷移の数が多いほど、ペナルティが加算され、スコアが低くなる。WFSTは、認識単語列に、誤りや言い変えが含まれると、その分だけスコアが悪くなるという結果を生む。   Thus, when the input recognition word is the same as the word s accepted in the state transition in WFST, the score in the transition is the best. On the other hand, state transitions corresponding to editing of replacement, insertion, and deletion are factors that deteriorate the score. Here, “edit” refers to a result obtained by replacing or deleting a word that should be originally inserted, or by inserting a word that is not a word that should originally be. For example, a state transition with <D> can be transitioned even if there is no matching input word. However, in the case of a path that passes only a transition with <D>, the penalty increases as the number of transitions increases. And the score goes down. WFST produces a result that if the recognition word string includes an error or paraphrase, the score is deteriorated accordingly.

ノードデータ記憶部630は、WFSTにおける状態の尤度を表すスコアを記憶する。つまり、ノードデータ記憶部630は、ノードデータ更新部620によって計算されるノードデータを記憶するものである。ノードデータ更新部620は、上述した計算結果に基づき、ノードデータ記憶部630をタイムリーに更新する。ノードデータ記憶部630は、例えば、半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。   The node data storage unit 630 stores a score representing the likelihood of a state in WFST. That is, the node data storage unit 630 stores node data calculated by the node data update unit 620. The node data update unit 620 updates the node data storage unit 630 in a timely manner based on the calculation result described above. The node data storage unit 630 is configured using a general storage unit such as a semiconductor memory or a hard disk device, for example.

原稿探索部640は、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部630を参照することにより、その時点における最尤ノードを決定するとともに、WFST記憶部610とノードデータ記憶部630とを参照して、最尤ノードから状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となったパスに関して、当該パスに誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする。また、原稿探索部640は、チャンクごとに誤りスコアを算出するとともに、チャンクごとの誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する出力遷移の出力シンボルを、確定出力とするものであり、且つ、原稿探索部640は、チャンクごとの誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する。   When the document search unit 640 receives an activation signal indicating the start of processing from the outside, the document search unit 640 refers to the node data storage unit 630 to determine the maximum likelihood node at that time, and also includes the WFST storage unit 610 and the node data storage unit 630. And tracing back the state transition from the maximum likelihood node to perform a traceback process until a predetermined time when the state transition has been confirmed, and setting the path of the state transition subjected to the traceback process as an output candidate, For an output candidate path, an error score is calculated according to the ratio of the state transition related to the error in the path, and when the error degree is smaller than a predetermined threshold based on the calculated error score, The output candidate is determined output. Further, the manuscript search unit 640 calculates an error score for each chunk, and outputs an output symbol of an output transition corresponding to the chunk when the degree of error is smaller than a predetermined threshold based on the error score for each chunk. The document search unit 640 calculates the error score for each chunk according to the ratio of the state transition related to the error with respect to the chunk and the section of the chunk immediately before the chunk. The error score is calculated as the error score of the chunk.

また、原稿探索部640は、出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における最尤ノードとして決定する。言い換えれば、原稿探索部640は、出力遷移の遷移元状態ではない状態に関しては、最尤ノードであるか否かを考慮しない。   Further, the document search unit 640 determines the node having the maximum likelihood among the nodes corresponding to the transition source state of the output transition as the maximum likelihood node at that time. In other words, the document search unit 640 does not consider whether or not it is the maximum likelihood node for a state that is not the transition source state of the output transition.

具体的には、原稿探索部640は、最終最良仮説を確定するための全原稿についての全認識単語列の認識結果の入力を待たず、予め定められた処理開始条件が満たされる都度、最尤の修正結果を求めるものである。原稿探索部640は、処理開始条件が満たされると、その時点でノードデータ記憶部630に記憶されているノードデータに基づいて、WFSTのネットワーク上をトレースバックしながら、最終最良仮説を部分的に近似した仮説を誤り修正結果として逐次確定する。   Specifically, the manuscript search unit 640 does not wait for input of recognition results of all recognition word strings for all manuscripts for determining the final best hypothesis, and each time the predetermined processing start condition is satisfied, the maximum likelihood The correction result is obtained. When the processing start condition is satisfied, the manuscript search unit 640 traces the final best hypothesis partially while tracing back on the WFST network based on the node data stored in the node data storage unit 630 at that time. Approximate hypotheses are sequentially determined as error correction results.

原稿探索部640は、WFSTに含まれる対応原稿の単語列と、入力された認識単語列との編集距離に基づいて最終最良仮説を近似する。原稿探索部640は、WFSTのネットワーク上で予め定められた範囲毎に区切ったパス間において、その先頭から末尾までのパス区間での編集距離がある程度小さければ、そのパス区間が信頼できるものとして確定して出力する。ここで、編集距離が短いということは、認識単語列と原稿の単語列とがほとんどマッチしているパスを通ってきたことを意味する。逆に、編集距離が長いパス区間は信頼度が低いので、その時点では確定せずに、次回のトレースバックのときにも利用する。いつまでも信頼度が低いパス区間は、原稿には元々記載されていない違うことを話した区間である、と推定される。よって、信頼度が低いパス区間を出力しない。   The document search unit 640 approximates the final best hypothesis based on the edit distance between the word string of the corresponding document included in the WFST and the input recognition word string. The document search unit 640 determines that the path section is reliable if the edit distance in the path section from the beginning to the end is small to some extent between the paths divided for each predetermined range on the WFST network. And output. Here, the short edit distance means that the path through which the recognized word string and the original word string are almost matched has been passed. On the other hand, since the reliability of a path section with a long editing distance is low, it is not determined at that time and is used for the next traceback. It is presumed that a path section having a low reliability forever is a section talking about a difference that is not originally described in the manuscript. Therefore, a path section with low reliability is not output.

原稿探索部640における処理開始条件とは、例えば、発話音声がない無音期間が所定の期間に達した場合、または、音声認識装置720が出力する認識単語列としての単語の入力数が所定の単語数に達した場合等である。上記の所定の期間は、特に限定されないが一例として3秒間とする。また、上記の所定の単語数は、特に限定されないが一例として20単語とする。原稿探索部640に入力される起動信号は、上記の処理開始条件が成立したことを示す信号である。このときの起動信号は、例えば音声認識装置720が自動的にonするようにしてもよいし、操作者による手動の操作によってonするようにしても良い。この操作者は、ポーズ(所定の長さの無音)を認識したときや、所定の単語数を音声認識装置720が出力した認識したときに、起動信号をonする操作を行う。音声認識装置720が自動的に起動信号をonする場合には、音声認識の結果を利用してポーズを検出したり、音声認識結果として出力する単語の数をカウントしたりすることにより、起動信号を切り替えるきっかけとする。この構成により、認識単語が一単語入力される度に探索処理を開始する場合に比べて、処理負荷を低減できる。また、無音期間が所定の期間だけ継続していれば、その間、認識結果の単語が音声認識装置720側から渡されてこないので、装置の処理の負荷がその時点に集中することなく、ノードスコアを容易に比較することができる。   The process start condition in the manuscript search unit 640 is, for example, a case where a silence period without speech is reached or a number of input words as a recognition word string output by the speech recognition device 720 is a predetermined word. This is the case when the number is reached. The predetermined period is not particularly limited, but is 3 seconds as an example. The predetermined number of words is not particularly limited, but is 20 words as an example. The activation signal input to the document search unit 640 is a signal indicating that the above process start condition is satisfied. The activation signal at this time may be automatically turned on, for example, by the voice recognition device 720 or may be turned on by a manual operation by the operator. The operator performs an operation of turning on the activation signal when recognizing a pause (silence of a predetermined length) or when recognizing a predetermined number of words output by the speech recognition device 720. When the speech recognition device 720 automatically turns on the activation signal, the activation signal is detected by detecting a pause using the result of the speech recognition or counting the number of words output as the speech recognition result. As a trigger to switch. With this configuration, the processing load can be reduced compared to the case where the search process is started each time a recognized word is input. If the silent period continues for a predetermined period, the recognition result word is not passed from the voice recognition device 720 during that period, so that the processing load of the device is not concentrated at that time, and the node score Can be easily compared.

上記の機能を実現するために、原稿探索部640は、さらに次の構成を有する。即ち、原稿探索部640は、最尤ノード検出部641と、トレースバック部642と、原稿分割部643と、出力候補記憶部644と、誤りスコア算出部645と、誤りスコア判別部646と、確定出力記憶部647と、確定時刻記憶部648とを含んで構成される。   In order to realize the above function, the document search unit 640 further has the following configuration. That is, the document search unit 640 includes a maximum likelihood node detection unit 641, a traceback unit 642, a document division unit 643, an output candidate storage unit 644, an error score calculation unit 645, an error score determination unit 646, and a confirmation. An output storage unit 647 and a fixed time storage unit 648 are included.

最尤ノード検出部641は、外部から受信する起動信号をトリガーとして動作し、その時点で記憶されているノードデータにおいてスコアが最大のノードを検出するものである。この起動信号は、上で述べたとおり、予め定められた処理開始条件が満たされたときに外部から供給されるものである。   The maximum likelihood node detection unit 641 operates using an activation signal received from the outside as a trigger, and detects a node having the maximum score in the node data stored at that time. As described above, this activation signal is supplied from the outside when a predetermined processing start condition is satisfied.

トレースバック部642は、最尤ノード検出部641で特定されたノードから、当該ノードに到達するまでのパスについて、WFSTのネットワークを下流から上流に向かってたどる。このとき、トレースバック部642は、前回のトレースバックで確定した箇所まで、ネットワークを遡る。つまり、トレースバック部642は、前回確定して出力された単語系列の最後の入力単語に対応した時刻までトレースバックする。   The traceback unit 642 follows the WFST network from downstream to upstream for the path from the node specified by the maximum likelihood node detection unit 641 to the node. At this time, the traceback unit 642 traces the network back to the place determined by the previous traceback. That is, the traceback unit 642 traces back to the time corresponding to the last input word of the word series that has been finalized and output.

原稿分割部643は、トレースバックするパスの中で、出力遷移に対応する区間ごとに単語列を切り出す。ここで、出力遷移とは、既に説明したように記号の出力を伴う状態遷移である。トランスデューサー構築装置740がWFSTを構築するときに、チャンクの終端の直後に、出力遷移が設けられている。つまり、原稿分割部643によって分割された結果の区間は、前述のチャンクの単位である。原稿分割部643は、トレースバックされた結果得られるパス全体を分割し、分割した結果得られる各々の単語列を出力する。   The document dividing unit 643 cuts out a word string for each section corresponding to the output transition in the traceback path. Here, the output transition is a state transition accompanied by the output of a symbol as described above. When the transducer construction device 740 constructs a WFST, an output transition is provided immediately after the end of the chunk. That is, the section obtained as a result of the division by the original dividing unit 643 is the above-described chunk unit. The document dividing unit 643 divides the entire path obtained as a result of the traceback, and outputs each word string obtained as a result of the division.

出力候補記憶部644は、原稿分割部643が分割した結果得られたパス区間に対応した出力遷移の出力シンボル(切り出された原稿)を、出力候補として記憶する。出力候補記憶部644は、例えば、半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。   The output candidate storage unit 644 stores the output transition output symbol (cut out document) corresponding to the path section obtained as a result of the division by the document dividing unit 643 as an output candidate. The output candidate storage unit 644 is configured using, for example, a general storage unit such as a semiconductor memory or a hard disk device.

誤りスコア算出部645は、原稿分割部643によって分割して切り出された区間(チャンク)毎に、誤りスコアを算出する。誤りスコア算出部645は、既に説明した式(7)を用いて誤りスコアを算出する。   The error score calculation unit 645 calculates an error score for each section (chunk) divided and cut out by the document dividing unit 643. The error score calculation unit 645 calculates the error score using the already described formula (7).

誤りスコア判別部646は、誤りスコア算出部645によって算出された誤りスコアが所定の閾値Tより小さいか否かを判定する。つまり、誤りスコア判別部646は、既に説明した式(6)に含まれる条件に基づいて判別する。   The error score determination unit 646 determines whether or not the error score calculated by the error score calculation unit 645 is smaller than a predetermined threshold T. In other words, the error score determination unit 646 determines based on the condition included in the already described formula (6).

確定出力記憶部647は、誤りスコア判別部646による判定結果に基づいて確定された出力(確定出力と呼ぶ)を記憶する。具体的には、誤りスコア判別部646によって誤りスコアが閾値Tより小さいと判定された場合、確定出力記憶部647は、当該所定パス区間における出力遷移の出力シンボルを誤り修正結果として記憶する。その他の場合、確定出力記憶部647は、当該所定パス区間における出力遷移の出力シンボルを誤り修正結果として記憶しない。なお、確定出力記憶部647は、例えば半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。また、確定出力記憶部647の記憶構造はスタックであり、確定出力記憶部647は後入れ先出し(LIFO)の構造でデータを保持する。   The confirmed output storage unit 647 stores an output (referred to as a confirmed output) that has been confirmed based on the determination result by the error score determination unit 646. Specifically, when the error score determination unit 646 determines that the error score is smaller than the threshold T, the confirmed output storage unit 647 stores the output symbol of the output transition in the predetermined path section as an error correction result. In other cases, the definite output storage unit 647 does not store the output symbol of the output transition in the predetermined path section as an error correction result. The confirmed output storage unit 647 is configured using a general storage unit such as a semiconductor memory or a hard disk device. The storage structure of the definite output storage unit 647 is a stack, and the definite output storage unit 647 holds data in a last-in first-out (LIFO) structure.

確定時刻記憶部648は、最新のトレースバック処理で確定した確定時刻を記憶する。確定時刻記憶部648は、例えば半導体メモリやハードディスク装置等の一般的な記憶手段である。確定時刻記憶部648は、今回トレースバックする全パス区間(切り出された全ての原稿)について、誤りスコア判別部646による判別処理が終了した時点で、スタックに積まれた出力シンボルに対応する最新の確定単語の時刻を確定時刻として記憶する。   The fixed time storage unit 648 stores the fixed time determined by the latest traceback process. The fixed time storage unit 648 is a general storage unit such as a semiconductor memory or a hard disk device. The fixed time storage unit 648 stores the latest path symbol corresponding to the output symbol loaded on the stack at the time when the determination process by the error score determination unit 646 is completed for all the path sections (all cut out documents) traced back this time. The time of the confirmed word is stored as the confirmed time.

出力部650は、原稿探索部640によって誤り修正結果として確定された対応原稿(つまり、確定出力)を逐次出力するものである。出力部650は、WFSTのネットワークを今回トレースバックするパスの中で、切り出されたすべての対応原稿の各パス区間に対して算出された誤りスコアについての判定処理が全て終了するまでに確定された出力シンボルのデータを出力する。具体的には、出力部は、確定出力記憶部647のスタックに積まれている出力シンボルのデータを、そのスタックが空になるまで出力する。   The output unit 650 sequentially outputs the corresponding document (that is, the confirmed output) determined as the error correction result by the document search unit 640. The output unit 650 is determined by the time when the determination process for the error score calculated for each path section of all the cut out corresponding documents in the path traced back through the WFST network is completed. Outputs output symbol data. Specifically, the output unit outputs the output symbol data stacked in the stack of the definite output storage unit 647 until the stack becomes empty.

この音声認識誤り修正装置600は、間違って音声認識された単語を修正して出力するとともに、大幅に間違った認識結果を出力しない、という動作を行う。つまり、音声認識誤り修正装置600による修正結果を、仮に事前に人が見ることができたとしたときに、「これでは文章として成立していない」、「意味が異なっている」と感じるほどの間違い部分を、音声認識誤り修正装置600がその処理の中で検出し、その検出部分を出力しないという動作も、広義の誤り修正として含んでいる。これは、誤りスコアを算出し、その誤りスコアに基づく判別を行っていることによるものである。   This speech recognition error correcting device 600 performs an operation of correcting and outputting a word that has been erroneously recognized, and not outputting a significantly incorrect recognition result. In other words, if the result of the correction by the speech recognition error correction device 600 can be seen in advance by a person, an error is enough to feel that “this is not a sentence” or “the meaning is different”. The operation in which the speech recognition error correction apparatus 600 detects the part in the process and does not output the detected part is included as error correction in a broad sense. This is because an error score is calculated and discrimination is performed based on the error score.

[9.音声認識誤り修正装置の動作手順]
図12は、音声認識誤り修正装置600による処理の手順を示すフローチャートである。なお、このフローチャートの処理の前提は、次の4点である。
(前提1)認識結果の単語入力を{ω,ω,…,ω,…,ω,…}とする。
(前提2)前回のトレースバックにより確定した部分の最後の入力単語をωとし、そのときの出力遷移をa(時間軸に沿ったP番目の出力遷移)とする。
(前提3)認識結果の単語ωが入力された後、所定の無音が続いたことをトリガーに、逐次確定を行う場合を考える。
(前提4)ノードデータ更新部620は、無音になる前に最後に入力した単語ωを受理して遷移できるノードを全て計算する。
[9. Operation procedure of speech recognition error correction device]
FIG. 12 is a flowchart showing a processing procedure performed by the speech recognition error correction apparatus 600. The premise of the processing of this flowchart is the following four points.
(Assuming 1) the recognition result of a word input {ω 0, ω 1, ... , ω k, ..., ω j, ...} and.
(Premise 2) Let ω k be the last input word of the portion determined by the previous traceback, and let the output transition at that time be a P (P-th output transition along the time axis).
(Premise 3) Consider a case in which, after a word ω j as a recognition result is input, a predetermined silence is used as a trigger for successive determination.
(Premise 4) The node data updating unit 620 accepts the last input word ω j before silence and calculates all the nodes that can make a transition.

以下では、このフローチャートを参照しながら、音声認識誤り修正装置600による処理の流れについて説明する。   Hereinafter, the flow of processing by the speech recognition error correction apparatus 600 will be described with reference to this flowchart.

まずステップS501において、外部からの起動信号の入力をトリガーとして、最尤ノード検出部641は、その時点で記憶されているノードデータにおいて最もスコアの高いノードを、最尤ノードとして検出する。この検出ノードで表される状態は、トレースバック開始時点の最尤状態である。   First, in step S501, using the input of an activation signal from the outside as a trigger, the maximum likelihood node detection unit 641 detects the node with the highest score in the node data stored at that time as the maximum likelihood node. The state represented by this detection node is the maximum likelihood state at the start of traceback.

次にステップS502において、トレースバック部642は、ステップS501において検出された最尤ノードから、前回のトレースバック処理で確定された時刻まで、トレースバックする。具体的には、トレースバック部642は、検出された最尤ノードに到達したパスについてWFST上の単語履歴を逆向きに(時間をさかのぼる方向に)たどり、前回のトレースバックで確定し、出力された単語系列の最後の入力単語ωkを求める。また、トレースバック部642は、対応する状態遷移(受理する単語がωkである状態遷移)を求める。そして、それらの単語および状態遷移に対応する確定時刻までトレースバックする。なお、トレースバック部642は、確定時刻記憶部648を参照し、その確定時刻記憶部648に格納されている確定時刻を、上記の最後の入力単語ωkに対応した確定時刻とする。
なお、受理単語がωである状態遷移の代わりに、出力遷移aにたどり着くまでトレースバックするようにしてもよい。
Next, in step S502, the traceback unit 642 traces back from the maximum likelihood node detected in step S501 to the time determined in the previous traceback process. Specifically, the traceback unit 642 traces the word history on the WFST in the reverse direction (in the direction of going back in time) for the path that has reached the detected maximum likelihood node, and confirms and outputs it in the previous traceback. Find the last input word ω k of the word sequence. Further, the traceback unit 642 obtains a corresponding state transition (a state transition in which the accepted word is ω k ). Then, trace back is performed until a fixed time corresponding to the word and the state transition. The traceback unit 642 refers to the confirmed time storage unit 648 and sets the confirmed time stored in the confirmed time storage unit 648 as the confirmed time corresponding to the last input word ω k described above.
Note that instead of the state transition in which the accepted word is ω k , the traceback may be performed until the output transition a P is reached.

次にステップS503において、原稿分割部643は、原稿を分割し、分割結果として得られた単語列をそれぞれ出力候補とする。具体的には、原稿分割部643は、今回トレースバックするパスの中で、2つの出力遷移間に挟まれたパス区間毎に原稿を分割する。そして、原稿分割部643は、得られたそれぞれの出力候補を、出力候補記憶部644に格納する。
なお、ここでの処理の方法として、出力遷移aにたどり着くまで逆向きに(つまり、時間を遡る方向に)進みながら、出力可能な出力遷移a(時間軸に沿ったL番目(ただしL>P)の出力遷移)を通過する度に原稿を分割してもよい。また、出力遷移aの側から出力可能な出力遷移aを通過する度に原稿を分割してもよい。
なお、出力可能な出力遷移aとは、出力遷移のシンボルが出力候補になるものであるが、後に、誤りスコア判別部646によって棄却される出力遷移(つまり、出力部650からは結局出力されない出力遷移)をも含んでいる。
In step S503, the document dividing unit 643 divides the document and sets word strings obtained as a result of the division as output candidates. Specifically, the document dividing unit 643 divides the document for each path section sandwiched between two output transitions in the path traced back this time. The document dividing unit 643 stores the obtained output candidates in the output candidate storage unit 644.
Note that, as a processing method here, the output transition a L (Lth (but L) along the time axis) that can be output while proceeding in the reverse direction (that is, in the direction of going back in time) until the output transition a P is reached. The document may be divided every time it passes (> P) output transition). It is also possible to divide the original each time passing through the output transition a L can be output from the side of the output transition a P.
Note that the output transition a L that can be output is an output transition symbol that is an output candidate, but is output later that is rejected by the error score determination unit 646 (that is, not output from the output unit 650 after all). Output transition).

次にステップS504において、誤りスコア算出部645は、出力候補の誤りスコアを算出する。具体的には、誤りスコア算出部645は、式(7)によってチャンクot,k の誤りスコアE(チルダ)(ot,k )を算出する。 Next, in step S504, the error score calculation unit 645 calculates an error score of the output candidate. Specifically, the error score calculation unit 645 calculates the equation (7) by the chunk o t, k u of the error score E (tilde) (o t, k u).

次にステップS505において、誤りスコア判別部646は、出力候補のうちの一つを選択し、その出力候補に関して算出された誤りスコアが閾値T未満であるか否かを判別する。誤りスコアが閾値T未満である場合(ステップS505:YES)には、次のステップS506に進む。誤りスコアが閾値T以上である場合(ステップS505:NO)には、ステップS508に飛ぶ。   In step S505, the error score determination unit 646 selects one of the output candidates and determines whether the error score calculated for the output candidate is less than the threshold T. If the error score is less than the threshold value T (step S505: YES), the process proceeds to the next step S506. If the error score is greater than or equal to the threshold T (step S505: NO), the process jumps to step S508.

次にステップS506に進んだ場合、誤りスコア判別部646は、WFSTのネットワーク上の当該パス区間(チャンク)の出力遷移を確定し、その出力シンボルを誤り修正結果として確定する。
次にステップS507において、誤りスコア判別部646は、今回確定した出力シンボルのデータを、確定出力記憶部647に書き込む。前述のとおり、確定出力記憶部647は後入れ先出しの構造を有するスタックである。
これらのステップS506およびS507の処理は、ステップS505における分岐制御により、現在のチャンクの誤りスコアが閾値T未満である場合のみに実行される。
When the process proceeds to step S506, the error score determination unit 646 determines the output transition of the path section (chunk) on the WFST network, and determines the output symbol as an error correction result.
In step S507, the error score determination unit 646 writes the data of the output symbol determined this time in the determined output storage unit 647. As described above, the definite output storage unit 647 is a stack having a last-in first-out structure.
The processes in steps S506 and S507 are executed only when the error score of the current chunk is less than the threshold T by the branch control in step S505.

次にステップS508に進むと、誤りスコア判別部646は、すべての出力候補を判別し終えたか否かを判断する。すべての出力候補の判別が終了している場合(ステップS508:YES)、次のステップS509に進む。すべての出力候補の判別が終了していない場合、すなわち依然として選択すべき出力候補がある場合(ステップS508:NO)、ステップS505に戻って次の出力候補を選択する。   Next, in step S508, the error score determination unit 646 determines whether all output candidates have been determined. If discrimination of all output candidates has been completed (step S508: YES), the process proceeds to the next step S509. If discrimination of all output candidates is not completed, that is, if there are still output candidates to be selected (step S508: NO), the process returns to step S505 to select the next output candidate.

つまり、切り出されたすべての原稿に対応した各パス区間に対して算出された誤りスコアについての判定処理が終了した場合に、次のステップS509に進む。
ステップS509において、誤りスコア判別部646は、確定時刻記憶部648を更新する。つまり、誤りスコア判別部646は、スタックに積まれた出力シンボルに対応する確定単語の時刻が最も新しいものを今回のトレースバック処理で確定した確定時刻として確定時刻記憶部648に格納する。
That is, when the determination process for the error score calculated for each path section corresponding to all the cut out originals is completed, the process proceeds to the next step S509.
In step S509, the error score determination unit 646 updates the confirmed time storage unit 648. That is, the error score determination unit 646 stores, in the determination time storage unit 648, the determination time determined by the current traceback process as the determination time determined by the current traceback process, with the latest determination word corresponding to the output symbol stacked on the stack.

次にステップS510において、出力部650は、その時点で確定出力記憶部647に書き込まれている出力シンボルのデータを、確定出力記憶部647が空になるまで順次読み出し、出力する。これにより、スタックに積まれていたすべての出力データは、出力される。なお、出力部650は、WFSTのネットワークの前方側に配置された原稿から順に(つまり、時刻の早い側から順に)出力する。   In step S <b> 510, the output unit 650 sequentially reads and outputs the output symbol data currently written in the determined output storage unit 647 until the determined output storage unit 647 becomes empty. As a result, all the output data loaded on the stack is output. Note that the output unit 650 outputs in order from the document placed on the front side of the WFST network (that is, in order from the earliest time).

つまり、出力部650は、毎回のトレースバック処理でスタックに積んだデータを、確定された原稿として逐次出力する。このとき、音声認識結果のうち、所定のパス区間の誤りスコアが閾値T以上である場合、信頼度が低いパスなので、当該パス区間の出力遷移の出力シンボルは、誤り修正結果としては採用されない。したがって、出力部650は、そのような信頼度の低いパス区間の出力シンボルを、出力しない。   That is, the output unit 650 sequentially outputs the data accumulated on the stack in each traceback process as a confirmed document. At this time, if the error score of a predetermined path section is equal to or greater than the threshold T among the speech recognition results, the output symbol of the output transition of the path section is not adopted as the error correction result because the path has low reliability. Therefore, the output unit 650 does not output such output symbols in the path section with low reliability.

ステップS10の処理が終了すると、音声認識誤り修正装置100は、このフローチャート全体の処理を終了する。   When the process of step S10 ends, the speech recognition error correction apparatus 100 ends the process of the entire flowchart.

[10.字幕文出力の具体例と評価]
以上、説明したように、本形態による音声認識誤り修正装置600の処理の特徴は、(1)文をチャンクに分割すること、(2)チャンクの終端に出力遷移を設けること、(3)出力遷移の箇所からトレースバックすること、である。このような特徴的な処理をすることによる作用を、具体的な処理例とともに、次に説明する。
[10. Specific examples and evaluation of subtitle text output]
As described above, the features of the processing of the speech recognition error correction apparatus 600 according to this embodiment are (1) dividing a sentence into chunks, (2) providing an output transition at the end of the chunk, and (3) output. Trace back from the transition point. The effect | action by performing such a characteristic process is demonstrated below with a specific process example.

図13は、本形態による字幕文出力の確定方法の実例を示す概略図である。同図の(A)および(B)は、それぞれ、入力される認識結果の単語列と、それらの単語に対応するWFSTの状態遷移と、その結果としての出力シンボルとの関係を示し、また算出される誤りスコアを付記している。   FIG. 13 is a schematic diagram illustrating an example of a subtitle sentence output confirmation method according to this embodiment. (A) and (B) in the figure respectively show the relationship between the input recognition result word string, the WFST state transition corresponding to those words, and the resulting output symbols, and the calculation. The error score to be added is added.

まず、同図(A)の例において、入力される単語列は「今日/の/関東/地域/は」である。これらの単語を受け付けると、WFSTは、次のように遷移する。即ち、始端からスタートして、入力単語「今日」は、対応する原稿内の「今日」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「の」は、対応する原稿内の「の」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「関東」は、対応する原稿内の「関東」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「地域」は、発話者による読み替えまたは音声認識装置720による認識誤りにより入力された単語である。したがって、対応する原稿内の「地方」にはマッチせず、置換の状態遷移が起こる。次の単語「は」は、対応する原稿内の「は」にマッチして、ペナルティの無い状態遷移が起こる。そして、「晴れ」と「です」は入力されていないが、脱落の状態遷移が起こると、黒四角で示すチャンクの終端の状態にたどり着く。そして、出力遷移における出力シンボルである「今日の関東地方は晴れです。」が、出力候補となる。ここで、このチャンクに関する誤り率は3/7である。即ち、誤りスコアは、3/7である。閾値Tを0.5とする場合、この誤りスコアは閾値Tよりも小さい。そして、音声認識誤り修正装置600は、出力候補である「今日の関東地方は晴れです。」の出力を確定することができる。   First, in the example of FIG. 5A, the input word string is “today / no / kanto / region / ha”. When these words are accepted, the WFST transitions as follows. That is, starting from the beginning, the input word “today” matches “today” in the corresponding document, and a state transition without penalty occurs. The next word “NO” matches “NO” in the corresponding manuscript, and a state transition without a penalty occurs. The next word “Kanto” matches “Kanto” in the corresponding manuscript and a state transition without penalty occurs. The next word “region” is a word that is input due to a replacement by the speaker or a recognition error by the speech recognition device 720. Therefore, the “region” in the corresponding manuscript does not match and a replacement state transition occurs. The next word “ha” matches “ha” in the corresponding document, and a state transition without penalty occurs. “Sunny” and “Is” are not input, but when a dropout state transition occurs, the end state of the chunk indicated by the black square is reached. The output symbol “Today's Kanto region is clear”, which is an output symbol in the output transition, is an output candidate. Here, the error rate for this chunk is 3/7. That is, the error score is 3/7. When the threshold value T is 0.5, this error score is smaller than the threshold value T. Then, the speech recognition error correction apparatus 600 can determine the output of “Today's Kanto region is sunny”, which is an output candidate.

次に、同図(B)の例で示すWFSTのネットワークにおいては、一連の区間が、abcdefのチャンクと、ghijkのチャンクとに分割されている。そして、各チャンクの終端に、出力遷移が設けられている。そして、入力される単語列はabcxeyghである。これらの単語を受け付けると、WFSTは、次のように遷移する。即ち、始端からスタートして、入力単語a,b,cのそれぞれは、対応する原稿内のa,b,cにマッチして、これらの単語の各々に関するペナルティの無い状態遷移が起こる。次の入力単語xについては、原稿内の単語dの置換の状態遷移が起こる。次の入力単語eは、原稿内のeにマッチして、ペナルティの無い状態遷移が起こる。そして、次の入力単語yについては、原稿内の単語fの置換の状態遷移が起こる。その遷移先がチャンクの終端の状態であり、その次の出力遷移における出力シンボルがabcdefである。ここまでのチャンクの誤りスコアは、2/6である(正常な状態遷移が4つで、置換の状態遷移が2つなので、2/(4+2))。   Next, in the WFST network shown in the example of FIG. 5B, a series of sections is divided into abcdef chunks and ghijk chunks. An output transition is provided at the end of each chunk. The input word string is abcxeyegh. When these words are accepted, the WFST transitions as follows. That is, starting from the beginning, each of the input words a, b, and c matches a, b, and c in the corresponding manuscript, and a state transition without penalty for each of these words occurs. For the next input word x, a state transition of replacement of the word d in the document occurs. The next input word e matches e in the manuscript, and a state transition without penalty occurs. Then, for the next input word y, the state transition of replacement of the word f in the document occurs. The transition destination is the end state of the chunk, and the output symbol in the next output transition is abcdef. The chunk error score so far is 2/6 (because there are 4 normal state transitions and 2 replacement state transitions, 2 / (4 + 2)).

続いて同図(B)内で、入力単語g,hのそれぞれは、対応する原稿内のg,hにマッチして、これらの単語の各々に関するペナルティの無い状態遷移が起こる。ここで入力単語列は終わるが、対応する原稿内のi,j,kについては脱落の状態遷移が起こり得る。ここで、原稿内のghijkの列の区間だけについて謝り率は3/5であり、閾値T(=0.5)を超えている。何故なら、g,hが入力にマッチして、i,j,kが脱落しているからである。しかしながら、式(9)によって計算される誤りスコアは、前のチャンクにおける誤りスコアとの加重平均(チャンク内の単語数による加重平均)をとって、5/11である。この誤りスコア5/11は閾値Tより小さい。したがって、音声認識誤り修正装置100は、出力候補abcdefを出力するとともに、次のチャンクに対応する出力候補ghijkをも出力する。   Subsequently, in FIG. 5B, each of the input words g and h matches g and h in the corresponding manuscript, and a state transition without penalty for each of these words occurs. Here, the input word string ends, but o, j, k in the corresponding manuscript may be dropped. Here, the apology rate is only 3/5 for the section of the ghijk column in the document, which exceeds the threshold T (= 0.5). This is because g, h match the input and i, j, k are missing. However, the error score calculated by the equation (9) is 5/11 by taking a weighted average (weighted average based on the number of words in the chunk) with the error score in the previous chunk. This error score 5/11 is smaller than the threshold value T. Therefore, the speech recognition error correction apparatus 100 outputs the output candidate abcdef and also outputs the output candidate ghijk corresponding to the next chunk.

同図(A)の例によって示した通り、音声認識誤り修正装置600は、単語「は」より後の入力単語が仮にすべて誤っていた(音声認識装置720による認識誤りなど)としても、早期に対応する字幕文を出力することができる。これは、単語「は」より後の入力単語がすべて誤っていたとしても誤りスコアが閾値Tより小さいためである。
また、同図(B)の例によって示した通り、予めチャンクを分割しておいた場合には、式(9)の作用で、現在着目するチャンクの、前方の確定済のチャンクの誤りスコアを利用することによって、さらに早期に、現在着目するチャンクの出力を確定できる。
As shown in the example of FIG. 5A, the speech recognition error correction apparatus 600 can detect the input word after the word “ha” all at once (eg, recognition error by the speech recognition apparatus 720). The corresponding subtitle sentence can be output. This is because the error score is smaller than the threshold T even if all input words after the word “ha” are incorrect.
Further, as shown in the example of FIG. 5B, when the chunk is divided in advance, the error score of the chunk that has been confirmed ahead of the currently focused chunk is obtained by the action of the equation (9). By using this, it is possible to determine the output of the currently focused chunk even earlier.

[11.誤りスコアに関する閾値Tの決め方]
もし音声認識装置の認識精度が90%くらいであれば、誤りスコアの基礎となる単語の誤り率は10%程度になる可能性がある。本形態で誤りスコア判別部646による判別に用いるための閾値Tとしては、音声認識の認識精度に応じて、単語一致率の信頼度分だけマージンを取って設定することが好ましい。ここで、単語一致率の信頼度は、WFSTのネットワークの2つの出力遷移間の単語数に依存する。
[11. How to determine threshold T for error score]
If the recognition accuracy of the speech recognition apparatus is about 90%, the error rate of the word that is the basis of the error score may be about 10%. In this embodiment, the threshold T used for determination by the error score determination unit 646 is preferably set with a margin corresponding to the reliability of the word matching rate according to the recognition accuracy of speech recognition. Here, the reliability of the word match rate depends on the number of words between two output transitions of the WFST network.

閾値Tを設定するためのその他の要因としては、原稿テキスト記憶装置700に記憶される原稿の候補の文章としての重なりがどのくらいの割合であるのかという点がある。例えば、下記(E1)〜(E3)に示す文の場合、文章としての重なりが80%くらいの割合で含まれている。
(E1) 今日 の 天気 は 晴れ です
(E2) 今日 の 天気 は 雨 です
(E3) 今日 の 天気 は 曇り です
このような場合、閾値Tも80%くらいに設定してしまうと、所望の動きが実現できない。
As another factor for setting the threshold value T, there is a ratio of the overlapping of candidate document sentences stored in the document text storage device 700 as a percentage. For example, in the case of sentences shown in (E1) to (E3) below, overlapping as sentences is included at a rate of about 80%.
(E1) Today's weather is sunny (E2) Today's weather is rainy (E3) Today's weather is cloudy In this case, if the threshold T is set to about 80%, the desired movement will be realized Can not.

なお、ニュース原稿の文を適切にチャンクに分割して出力遷移を配置し、閾値Tを50%とした条件で実験した場合、良好に動作することが確認できた。   It was confirmed that when the test was performed under the condition that the sentence of the news manuscript was appropriately divided into chunks and the output transitions were arranged and the threshold T was 50%, it was confirmed that the operation was good.

以上説明したように、本形態に係る音声認識誤り修正装置600は、文の順序は変わり得るとは言え、原則として、原稿テキストに含まれる文が連続して発声されるという拘束を利用して、認識結果と原稿テキストとを対応付けることで、認識誤りを修正することができる。つまり、従来技術によるブロック照合方式の自動修正誤りを解消する。   As described above, the speech recognition error correction apparatus 600 according to the present embodiment uses the constraint that the sentences included in the manuscript text are continuously uttered in principle, although the order of the sentences can be changed. The recognition error can be corrected by associating the recognition result with the original text. That is, the automatic correction error of the block matching method according to the prior art is solved.

また、本形態による音声認識誤り修正装置600は、認識単語の単語列が原稿テキスト内に含まれる単語列のどこと一番マッチしているのかを、従来技術による方式より長い範囲で照合している。つまり、従来のブロック照合方式が単語連鎖ブロックに相当する区間だけを照合するのに対して、音声認識誤り修正装置600は、原稿の文章を遡りながらもっと長い文章全体で照合する。そのため、どこでマッチさせるのがよいのかが従来よりも明白に分かり、自動修正誤りを従来よりも低減できる。   Also, the speech recognition error correction apparatus 600 according to the present embodiment collates where the word string of the recognized word most closely matches the word string included in the manuscript text within a longer range than the conventional technique. Yes. That is, while the conventional block matching method collates only the section corresponding to the word chain block, the speech recognition error correction apparatus 600 collates the whole sentence while tracing back the sentence of the document. Therefore, it is clearly known where to make the match, and automatic correction errors can be reduced more than before.

本形態による音声認識誤り修正装置600は、文を複数のチャンクに分割し、チャンクの終端に出力遷移を設けている。これにより、文の途中であっても、確定させた単語列を出力することができる。   The speech recognition error correction apparatus 600 according to this embodiment divides a sentence into a plurality of chunks and provides an output transition at the end of the chunk. As a result, the confirmed word string can be output even in the middle of the sentence.

また、本形態による音声認識誤り修正装置600は、出力遷移が存在する箇所のみからトレースバックするように限定した。これにより、計算量を抑制することができる。   Further, the speech recognition error correction apparatus 600 according to the present embodiment is limited to trace back only from a place where an output transition exists. Thereby, the amount of calculation can be suppressed.

以上、前提となる形態を説明したが、本形態はさらに次のような変形例でも実施することが可能である。また、複数の変形例を組み合わせて実施しても良い。   Although the presupposed form has been described above, the present embodiment can also be implemented in the following modified example. Moreover, you may implement combining a some modification.

[変形例1]音声認識誤り修正装置の構成
音声認識誤り修正装置600が、内部にトランスデューサー構築装置740を備えるようにしてもよい。
[Modification 1] Configuration of Speech Recognition Error Correction Device The speech recognition error correction device 600 may include a transducer construction device 740 inside.

[変形例2]言い換えを受理するWFSTの構築
WFSTの情報源となるアナウンス用原稿には、それが読まれるときに、読み飛ばされる句や、言い換えられる句、補足される句が含まれている場合がある。これらの一部には、定型で高い頻度で省略/言い換え/補足が行われる。例えば、ニュース番組の原稿では、取材元を表す「警視庁によりますと」などといった句は、読み飛ばされやすいことの多い句である。このような句が読み飛ばされたとしても、ニュース主文の文意に変わりはなく、言い換えればいわゆる5W1Hに関する変化はなく、ニュース番組としての実用上の問題はない。
[Modification 2] Construction of WFST that accepts paraphrasing An announcement manuscript that is an information source of WFST includes phrases that are skipped when read, paraphrased phrases, and supplemented phrases There is a case. Some of these are regularly omitted and paraphrased / supplemented with high frequency. For example, in a news program manuscript, phrases such as “according to the Metropolitan Police Department” representing the interview source are often skipped. Even if such a phrase is skipped, there is no change in the meaning of the main text of the news, in other words, there is no change regarding so-called 5W1H, and there is no practical problem as a news program.

本変形例では、このような定型的な言い回しのバリエーションをWFSTに追加しておくことで、精度よく修正結果を出力できるようにする。上記の言い回しのバリエーションの追加は、原稿から構築したWFSTとは別に、言い回しのバリエーションを追加するための別のWFSTを構築しておき、原稿から構築したWFSTと合成することにより、効率よく行うことができる。なお、WFSTの合成や、最小化や、決定化などを行うための公知のアルゴリズムを適用することができる。   In the present modification, such a standard phrase variation is added to the WFST so that the correction result can be output with high accuracy. The addition of the above-mentioned wording variations is performed efficiently by constructing another WFST for adding wording variations separately from the WFST constructed from the manuscript and combining it with the WFST constructed from the manuscript. Can do. A known algorithm for performing WFST synthesis, minimization, determinization, or the like can be applied.

上記のような言い換え例を含んだWFSTを構築するためには、過去の同種の番組の原稿テキストと、実際に読み上げられた単語列との差分を分析し、頻度が高く、且つ言い換えによって文意に変更がないものを予め選別して収集しておく。そして、この選別された言い換え例ごとに、言い換えを合成するためのWFSTを構築しておき、原稿から構築したWFSTと、言い換え例のWFSTとを合成する演算(既存技術による演算)を施すことにより、言い換えに対応可能なWFSTを構築することができる。   In order to construct a WFST including the above paraphrasing example, the difference between the original text of the same type of program in the past and the word string actually read out is analyzed, and the frequency is high and the meaning of the text is determined by paraphrasing. Select and collect items that do not change in advance. Then, for each selected paraphrase example, a WFST for synthesizing the paraphrase is constructed, and an operation (computation based on the existing technology) for synthesizing the WFST constructed from the manuscript and the WFST of the paraphrase example is performed. In other words, a WFST that can be used in other words can be constructed.

[変形例3]認識結果への付加
音声認識の結果では得られない記号等(句点や、読点や、その他の記号等)を、出力状態遷移における出力シンボル内に含めるようにしても良い。例えば、ニュース原稿に予めそれらの記号等を含めておき、そのニュース原稿に基づいてWFSTを構築するときに、出力シンボル内にそれらの記号等が残るようにする。そのようなWFSTを用いて音声認識誤り修正装置100を稼働させることにより、それらの記号等を含んだ読みやすい字幕を出力することができる。
[Modification 3] Addition to Recognition Result Symbols that cannot be obtained as a result of speech recognition (punctuation marks, reading marks, other symbols, etc.) may be included in the output symbols in the output state transition. For example, those symbols and the like are previously included in the news manuscript, and when the WFST is constructed based on the news manuscript, the symbols and the like remain in the output symbol. By operating the speech recognition error correction apparatus 100 using such WFST, it is possible to output easy-to-read subtitles including those symbols and the like.

[変形例4]認識結果に対応するその他の出力(多言語字幕)
上記の変形例3に加え、出力遷移における出力シンボルとして、原稿のテキストを他国語等に翻訳した結果の単語列を用いても良い。これにより、読み上げられた元の原稿とは異なる言語での字幕を出力することができる。また、複数のWFSTを同時に並行して稼働させることにより、複数ヶ国語の字幕を出力することもできる。また、出力遷移における出力シンボルとして、番組の進行をコントロールするためのキューに相当する記号を含めるようにしても良い。このキューが出力されることをトリガーとして、ハイブリッドキャストなどの番組連動サービスに対して、起動や場面転換等の指示情報を与えることもできる。これにより、より多彩な放送サービスを実現することができる。
[Modification 4] Other output corresponding to the recognition result (multilingual subtitles)
In addition to the third modification described above, a word string obtained as a result of translating the text of a document into another language or the like may be used as an output symbol in output transition. Thereby, it is possible to output subtitles in a language different from that of the original document read out. Also, subtitles in a plurality of languages can be output by operating a plurality of WFSTs in parallel. Further, a symbol corresponding to a queue for controlling the progress of a program may be included as an output symbol in the output transition. With the output of this queue as a trigger, it is possible to give instruction information such as start-up and scene change to a program-linked service such as hybrid cast. As a result, more various broadcasting services can be realized.

[変形例5]WFSTの最小化
本変形例では、WFSTを作成する際に、可能であればWFSTの最小化を行う。WFSTの最小化とは、与えられた状態遷移図において、集約可能な複数の状態(ノード)を集約したり、集約可能な複数の状態遷移(枝)を集約したりすることである。WFSTを集約すること自体は、既存技術によって行うことができる。WFSTの最小化の一例は次の通りである。即ち、WFSTのネットワークにおいて、共通する複数の部分ネットワークを同一の状態遷移の列として構成し直す。このようなWFSTの最小化を用いることにより、共通する単語列についての状態遷移を削減することができる。例えば、同じ接頭辞を有する単語列(文)を同一の遷移で共有できる。これにより、演算量を削減することができる。
[Modification 5] Minimization of WFST In this modification, when creating a WFST, the WFST is minimized if possible. The minimization of WFST is to aggregate a plurality of states (nodes) that can be aggregated or to aggregate a plurality of state transitions (branches) that can be aggregated in a given state transition diagram. Aggregating WFST itself can be performed by existing technology. An example of WFST minimization is as follows. That is, in the WFST network, a plurality of common partial networks are reconfigured as the same state transition sequence. By using such WFST minimization, state transitions for common word strings can be reduced. For example, word strings (sentences) having the same prefix can be shared by the same transition. Thereby, the amount of calculation can be reduced.

[変形例6]WFSTの決定化
WFSTを作成する際に、必要があればWFSTの決定化を行う。具体的には、WFSTのネットワークにおいて、状態遷移の途中で、出力シンボルが決定する場合には、少しでも早く推定結果を出力するために、出力文の位置を前のほうに変更する。WFSTの決定化を行うことにより、例えば、接頭辞がユニークとなる遷移に出力文を移動する。これにより、出力文を旱期に確定できるようになるなどの利点がある。ただし、WFSTを作成する際にWFSTの決定化を行った場合、原稿探索部640による最尤仮説の探索処理でも対応できるように設定変更が必要である。つまり、WFSTの決定化を行わない場合に比べて、誤りスコアを計算するためのパス区間を出力遷移の前後にシフトさせる必要がある。加えて、前後のパス区間の伸縮分を吸収できるように、閾値Tをより厳しい値(誤り率がより小さい値)に設定する必要がある。
[Modification 6] Determining the WFST When creating the WFST, the WFST is determinized if necessary. Specifically, in the WFST network, when an output symbol is determined during the state transition, the position of the output sentence is changed to the front in order to output the estimation result as soon as possible. By determinizing the WFST, for example, the output sentence is moved to a transition with a unique prefix. This has the advantage that the output sentence can be finalized in the long term. However, if the WFST is determinized when creating the WFST, it is necessary to change the setting so that the search process of the maximum likelihood hypothesis by the manuscript search unit 640 can also cope. In other words, it is necessary to shift the path interval for calculating the error score before and after the output transition as compared with the case where WFST is not determinized. In addition, it is necessary to set the threshold T to a stricter value (a value with a smaller error rate) so that the expansion and contraction of the preceding and following path sections can be absorbed.

[変形例7]誤りスコアの求め方
本形態では、式(9)に示した誤り率(編集距離)に基づいて誤りスコアを計算した。これに限らず、原稿と認識結果の一致率、一致精度、脱落率、挿入率を利用したり、それらを併用したりすることによって、誤りスコアを算出するようにしても良い。
[Modification 7] Method of obtaining error score In this embodiment, the error score is calculated based on the error rate (edit distance) shown in Equation (9). However, the present invention is not limited to this, and the error score may be calculated by using the matching rate, matching accuracy, dropout rate, and insertion rate of the document and the recognition result, or using them together.

以上、説明した方式2の構成を整理すると次の通りである。
[2−1]原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、前記原稿探索部によって求められた前記確定出力を出力する出力部と、を具備する音声認識誤り修正装置であって、前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿テキストに含まれる文を複数のチャンクに分割し、前記チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に前記出力遷移を設けた前記有限状態トランスデューサーの、前記状態に関する情報および前記状態遷移に関する情報を記憶する、ことを特徴とする音声認識誤り修正装置。
The configuration of the method 2 described above is organized as follows.
[2-1] A finite state transducer that sequentially transitions while accepting words input as speech recognition results corresponding to the original text, and also includes errors in the words included in the speech recognition results. The finite state that stores information about the state of the finite state transducer that undergoes state transition while accepting, and information including a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition. A transducer information storage unit; a node data storage unit that stores a score representing the likelihood of the state in the finite state transducer; and an input of a recognition word that is a speech recognition result corresponding to the manuscript text from outside And the state of the finite state transducer according to the received recognition word. A node data update unit that updates the node data storage unit using the calculated score and an activation signal indicating the start of processing from the outside, By referring to the maximum likelihood node at that time, and referring to the finite state transducer information storage unit and the node data storage unit, the state transition to the maximum likelihood node is traced back to Trace back processing is performed until a predetermined time when the transition is confirmed, and the path of the state transition subjected to the trace back processing is set as an output candidate. An error score corresponding to the included ratio is calculated, and the degree of error is determined based on the calculated error score. A speech recognition error correction apparatus comprising: a document search unit that sets a candidate for output of the path as a definite output when the value is smaller than a value; and an output unit that outputs the definite output obtained by the document search unit. The finite state transducer information storage unit stores an output transition where the output symbol is a non-empty state transition as a part of the state transition, and stores a sentence included in the original text in a plurality of chunks. Storing information relating to the state and information relating to the state transition of the finite state transducer provided with the output transition after a state transition path in which the word included in the chunk is received as an input symbol. A speech recognition error correction device characterized by the above.

[2−2]前記原稿探索部は、前記チャンクごとに前記誤りスコアを算出するとともに、前記チャンクごとの前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する前記出力遷移の出力シンボルを、前記確定出力とするものであり、且つ、前記原稿探索部は、前記チャンクごとの前記誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する、ことを特徴とする前記[2−1]の音声認識誤り修正装置。   [2-2] The document search unit calculates the error score for each chunk, and responds to the chunk when the degree of error is smaller than a predetermined threshold based on the error score for each chunk. The output symbol of the output transition is used as the definite output, and the document search unit calculates the error score for each chunk with respect to the chunk and a section of the chunk immediately before the chunk. The speech recognition error correction apparatus according to [2-1], wherein an error score corresponding to a ratio of state transitions related to the error is calculated as an error score of the chunk.

[2−3]原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、前記原稿探索部によって求められた前記確定出力を出力する出力部と、を具備する音声認識誤り修正装置であって、前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿探索部は、前記出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における前記最尤ノードとして決定する、ことを特徴とする音声認識誤り修正装置。   [2-3] A finite state transducer that sequentially accepts words input as a speech recognition result in response to a manuscript text and makes a state transition, and also includes an error in a word included in the speech recognition result. The finite state that stores information about the state of the finite state transducer that undergoes state transition while accepting, and information including a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition. A transducer information storage unit; a node data storage unit that stores a score representing the likelihood of the state in the finite state transducer; and an input of a recognition word that is a speech recognition result corresponding to the manuscript text from outside And the state of the finite state transducer according to the received recognition word. A node data update unit that updates the node data storage unit using the calculated score and an activation signal indicating the start of processing from the outside, By referring to the maximum likelihood node at that time, and referring to the finite state transducer information storage unit and the node data storage unit, the state transition to the maximum likelihood node is traced back to Trace back processing is performed until a predetermined time when the transition is confirmed, and the path of the state transition subjected to the trace back processing is set as an output candidate. An error score corresponding to the included ratio is calculated, and the degree of error is determined based on the calculated error score. A speech recognition error correction apparatus comprising: a document search unit that sets a candidate for output of the path as a definite output when the value is smaller than a value; and an output unit that outputs the definite output obtained by the document search unit. The finite state transducer information storage unit stores an output transition where the output symbol is a non-empty state transition as a part of the state transition, and the document search unit stores the transition of the output transition. A speech recognition error correcting apparatus, wherein a node having the maximum likelihood among nodes corresponding to an original state is determined as the maximum likelihood node at that time.

次に、上述した、前提となる形態の音声認識誤り修正装置(方式1および方式2)に基づいて、本発明の複数の実施形態を説明する。   Next, a plurality of embodiments of the present invention will be described on the basis of the above-described speech recognition error correction apparatus (method 1 and method 2).

[第1実施形態]
第1実施形態による音声認識誤り修正装置は、上述した方式1の音声認識誤り修正装置に、さらに、原稿テキストの前処理を行う機能を有する前処理部を設けたものである。
図14は、本実施形態による音声認識誤り修正装置の概略機能構成を示すブロック図である。同図に示すように、本実施形態による音声認識誤り修正装置800は、既に説明した音声認識誤り修正装置100(前提形態の方式1,図3)が備える構成に加えて、前処理部811を含んで構成される。
[First Embodiment]
The speech recognition error correction apparatus according to the first embodiment is a system in which a preprocessing unit having a function of preprocessing original text is further provided in the above-described speech recognition error correction apparatus of method 1.
FIG. 14 is a block diagram showing a schematic functional configuration of the speech recognition error correction apparatus according to the present embodiment. As shown in the figure, the speech recognition error correction apparatus 800 according to the present embodiment includes a preprocessing unit 811 in addition to the configuration provided in the speech recognition error correction apparatus 100 (method 1 of FIG. 1 and FIG. 3). Consists of including.

前処理部811は、記憶手段に記憶されている原稿テキスト集合200のデータを解析し、警告状況を検知した場合には、警告情報を出力する。警告状況とは、原稿探索手段140の動作において、誤りが生じやすいような原稿テキストが含まれている状況である。また、前処理部811は、警告状況を解消するための修正案を生成し、出力する。オペレーターは、前処理部811から提示された修正案にしたがって、あるいはその修正案を参考として、原稿テキストを修正する操作を行う。   The preprocessing unit 811 analyzes the data of the document text set 200 stored in the storage unit, and outputs warning information when a warning situation is detected. The warning situation is a situation in which manuscript text that is likely to cause an error in the operation of the manuscript search means 140 is included. In addition, the preprocessing unit 811 generates and outputs a correction plan for eliminating the warning situation. The operator performs an operation of correcting the manuscript text in accordance with the correction plan presented from the preprocessing unit 811 or referring to the correction plan.

仮に、トランスデューサ構築装置240が、警告状況にある原稿テキストに基づいてそのままトランスデューサーを構築してしまうと、原稿探索手段140の動作で誤りが生じ、音声認識誤りを正しく修正できない可能性がある。しかしながら、前処理部811の処理によって適切に原稿テキストを前処理段階で修正することにより、原稿探索手段140での誤りを防ぐことができる。   If the transducer construction device 240 constructs a transducer as it is based on the document text in a warning situation, an error may occur in the operation of the document search means 140, and the voice recognition error may not be corrected correctly. However, an error in the document search means 140 can be prevented by appropriately correcting the document text at the preprocessing stage by the processing of the preprocessing unit 811.

なお、具体的な警告状況の例や、それらの警告状況を解消するための前処理部811の処理については後で詳述する。   Note that specific examples of warning situations and the processing of the preprocessing unit 811 for eliminating these warning situations will be described in detail later.

[第2実施形態]
第2実施形態による音声認識誤り修正装置は、上述した方式2の音声認識誤り修正装置に、さらに、原稿テキストの前処理を行う機能を有する前処理部を設けたものである。
図15は、本実施形態による音声認識誤り修正装置の概略機能構成を示すブロック図である。同図に示すように、本実施形態による音声認識誤り修正装置900は、既に説明した音声認識誤り修正装置600(前提形態の方式2,図11)が備える構成に加えて、原稿テキスト記憶装置700(原稿テキスト記憶部)と、トランスデューサー構築装置740と、前処理部911とを含んで構成される。
[Second Embodiment]
The speech recognition error correction apparatus according to the second embodiment is a system in which a pre-processing unit having a function of pre-processing original text is further provided in the above-described method 2 speech recognition error correction apparatus.
FIG. 15 is a block diagram showing a schematic functional configuration of the speech recognition error correction apparatus according to the present embodiment. As shown in the figure, the speech recognition error correction apparatus 900 according to the present embodiment has an original text storage device 700 in addition to the configuration provided in the speech recognition error correction apparatus 600 (method 2 in FIG. 11). (Original text storage unit), a transducer construction device 740, and a preprocessing unit 911.

前処理部911は、原稿テキスト記憶装置700に記憶されている原稿テキストのデータを解析し、警告状況を検知した場合には、警告情報を出力する。警告状況とは、原稿探索部640の動作において、誤りが生じやすいような原稿テキストが含まれている状況である。また、前処理部911は、警告状況を解消するための修正案を生成し、出力する。オペレーターは、前処理部911から提示された修正案にしたがって、あるいはその修正案を参考として、原稿テキストを修正する操作を行う。   The pre-processing unit 911 analyzes document text data stored in the document text storage device 700, and outputs warning information when a warning situation is detected. The warning situation is a situation in which manuscript text that is likely to cause errors in the operation of the manuscript search unit 640 is included. In addition, the preprocessing unit 911 generates and outputs a correction plan for eliminating the warning situation. The operator performs an operation of correcting the manuscript text in accordance with the correction plan presented from the preprocessing unit 911 or with reference to the correction plan.

仮に、トランスデューサー構築装置740が、警告状況にある原稿テキストに基づいてそのままトランスデューサーを構築してしまうと、原稿探索部640の動作で誤りが生じ、音声認識誤りを正しく修正できない可能性がある。しかしながら、前処理部911の処理によって適切に原稿テキストを前処理段階で修正することにより、原稿探索部640での誤りを防ぐことができる。   If the transducer construction device 740 constructs the transducer as it is based on the document text in a warning situation, an error occurs in the operation of the document search unit 640, and the voice recognition error may not be corrected correctly. . However, an error in the document search unit 640 can be prevented by appropriately correcting the document text in the preprocessing stage by the processing of the preprocessing unit 911.

なお、具体的な警告状況の例や、それらの警告状況を解消するための前処理部911の処理については後で詳述する。   Note that specific examples of warning situations and the processing of the preprocessing unit 911 for eliminating these warning situations will be described in detail later.

[第1実施形態および第2実施形態における前処理部(811または911)の動作]
前提となる形態(方式1、方式2)において述べたように、音声認識誤り修正装置(800または900)は、次の式(10)を満たす修正結果を確定させ、出力する。
[Operation of the pre-processing unit (811 or 911) in the first embodiment and the second embodiment]
As described in the premise mode (method 1 and method 2), the speech recognition error correction device (800 or 900) determines and outputs a correction result that satisfies the following equation (10).

Figure 2016099515
Figure 2016099515

式(10)において、Oはトレースバックにより確定する候補となった文またはチャンクの集合である。また、oはOに属する区間である。また、Eは区間o内において誤りを受理する遷移の重みの合計から求めた誤り率である。なお例えば、Eが区間o内において誤りを受理する遷移の通過回数から求めるようにしてもよい。また、Tは前記誤り率に関する閾値である。閾値Tは、許容する原稿と認識結果との不一致の度合いと、原稿がない発話(原稿に含まれていなかった単語列が実際に発話され認識されたもの)と原稿との一致度合いに基づき、適宜設定する。例えば、T=0.5程度(0.4≦T≦0.6 を満たす所定のT)とすると、認識誤りの良好な修正結果が得られる。しかしながら、原稿内に、互いの類似度が0.5以上(言い換えれば、編集距離が0.5以下)の類似文の対があった場合には、適切な結果を得ることが困難となる。 In Expression (10), O t is a set of sentences or chunks that are candidates to be determined by traceback. O is a section belonging to O t . E o is an error rate obtained from the total of transition weights for accepting errors in the interval o. For example, E o may be obtained from the number of passages of transitions that accept an error in the interval o. T is a threshold relating to the error rate. The threshold value T is based on the degree of mismatch between the accepted document and the recognition result, and the degree of coincidence between the utterance with no document (a word string not actually included in the document and actually recognized and recognized) Set as appropriate. For example, when T = about 0.5 (predetermined T satisfying 0.4 ≦ T ≦ 0.6), a good correction result of recognition error can be obtained. However, if there are pairs of similar sentences having a similarity of 0.5 or more (in other words, an edit distance of 0.5 or less) in the document, it is difficult to obtain an appropriate result.

前処理部(811または911)は、原稿テキスト記憶部に記憶された原稿テキストに含まれる言語要素(単語、文字、音素等)の系列に関して、複数の系列間の類似度を表す距離を算出するとともに、算出された距離が所定の閾値を下回るか否かによって類似の系列を検出し、類似の系列が検出された場合には警告情報を出力し、検出された類似の系列のうちの少なくともいずれかについて原稿テキストを操作することによって類似を解消するための修正の提案を出力するとともに、外部から入力された指示にしたがって原稿テキストを修正する。   The preprocessing unit (811 or 911) calculates a distance representing a similarity between a plurality of sequences with respect to a sequence of language elements (words, characters, phonemes, etc.) included in the document text stored in the document text storage unit. In addition, a similar series is detected depending on whether the calculated distance is below a predetermined threshold, and warning information is output when a similar series is detected, and at least one of the detected similar series is output. By manipulating the manuscript text, the correction proposal for eliminating the similarity is output, and the manuscript text is amended according to the instruction inputted from the outside.

つまり、前処理部(811または911)は、事前に原稿中の警告状況を発見し、警告情報を発する機能を有する。また、前処理部(811または911)は、発見した警告状況に関して修正案を提示する機能を有する。また、前処理部(811または911)は、修正案を提示した後、オペレーターの操作等に基づき原稿を修正する。もっとも典型的な場合においては、前処理部(811または911)が提示した修正案をオペレーターが承諾し、オペレーターが承諾を表す操作を行うと、前処理部(811または911)は提示した修正案にしたがって原稿を修正する。また、オペレーターの判断により、前処理部(811または911)が提示した修正案とは異なる修正を行うことも可能である。いずれにしても、前処理部(811または911)による原稿の解析と修正により、原稿中に含まれていた警告状況は解消される。   In other words, the preprocessing unit (811 or 911) has a function of detecting a warning situation in the document in advance and issuing warning information. Further, the preprocessing unit (811 or 911) has a function of presenting a correction proposal regarding the found warning situation. The preprocessing unit (811 or 911) corrects the document based on the operator's operation after presenting the correction plan. In the most typical case, when the operator approves the amendment proposed by the preprocessing unit (811 or 911) and the operator performs an operation indicating the approval, the preprocessing unit (811 or 911) presents the amendment proposed. Follow the procedure to correct the manuscript. Further, it is possible to make a correction different from the correction proposal presented by the preprocessing unit (811 or 911) at the operator's discretion. In any case, the warning situation included in the document is resolved by the analysis and correction of the document by the preprocessing unit (811 or 911).

警告状況の具体例は、次の4つである。
[1]重複項目の存在
[2]類似文の存在
[3]短文(短すぎる文)の存在
[4]文頭における類似チャンクの存在
これらの警告状況の各々の詳細については後述する。
There are the following four specific examples of warning situations.
[1] Presence of duplicate items [2] Presence of similar sentences [3] Presence of short sentences (too short sentences) [4] Presence of similar chunks at the beginning of sentences Details of each of these warning situations will be described later.

また、ここで、原稿の構成を形式的に定義する。
処理対象の原稿全体をMとする。原稿Mの構成を、下の式(11)のように定義する。
Here, the configuration of the document is formally defined.
Let M be the entire document to be processed. The configuration of the document M is defined as the following formula (11).

Figure 2016099515
Figure 2016099515

式(11)において、d,d,・・・は、ニュース項目である。なおnは、原稿Mに含まれるニュース項目の数である。つまり、原稿Mは、n個のニュース項目d(1≦i≦n)で構成されている。
そして、ニュース項目dの構成は、下の式(12)の通りである。
In equation (11), d 1 , d 2 ,... Are news items. It should be noted that n M is the number of news items that are contained within the original document M. That is, the document M is composed of n M news items d i (1 ≦ i ≦ n M ).
The structure of the news item d i is as shown in the following equation (12).

Figure 2016099515
Figure 2016099515

式(12)において、l,l,・・・は、文である。なお、式(12)において、nは、ニュース項目dに含まれる文の数である。つまり、ニュース項目dは、n個の文l(1≦j≦n)で構成されている。
そして、文lの構成は、下の式(13)の通りである。
In the formula (12), l 1 , l 2 ,... Are sentences. In equation (12), n i is the number of sentences included in the news item d i . That is, the news item d i is composed of n i sentences l j (1 ≦ j ≦ n i ).
The structure of the sentence l j is defined in Equation (13) below.

Figure 2016099515
Figure 2016099515

式(13)において、c ,c ,・・・は、チャンクである。なお、式(13)において、nは、文lに含まれるチャンクの数である。つまり、文lは、n個のチャンクc ,c ,・・・で構成されている。 In Expression (13), c j 1 , c j 2 ,... Are chunks. In Expression (13), n j is the number of chunks included in the sentence l j . That is, the sentence l j is composed of n j chunks c j 1 , c j 2 ,.

つまり、以上説明したように、原稿テキストの構成は次の通りである。即ち、原稿テキストの全体は、1つまたは複数の項目で構成される。ここで項目は、例えばニュース番組におけるニュース項目である。また、項目は、1つまたは複数の文で構成される。通常の文は、言語(日本語等)の文法に従って構文をなす1つのまとまりである。日本語の場合には、通常、文は、句点で区切られる。しかし、本実施形態において、文法上の複数の文を、便宜上、1つの文のまとまりと同等のものとして扱っても良い。例えば、後述するように、文を連結する場合がある。また、文は、1つまたは複数のチャンクで構成される。また、チャンクは、1つまたは複数の単語の列として構成される。単語は、1つまたは複数の文字からなる。なお、「系列」とは、言語要素の系列である。ここで述べた項目、文、チャンクは、いずれも系列である。
原稿テキストは、このような論理的構造を有するデータとして、記憶手段に格納されている。また、処理により、論理的構造を適宜変更することができるようになっている。論理的構造の変更とは、例えば、文を連結したり、チャンクの範囲を変更したりすることである。
That is, as described above, the structure of the manuscript text is as follows. That is, the entire document text is composed of one or more items. Here, the item is a news item in a news program, for example. An item is composed of one or more sentences. A normal sentence is a single group that forms a syntax according to the grammar of a language (such as Japanese). In Japanese, sentences are usually separated by punctuation. However, in the present embodiment, a plurality of grammatical sentences may be treated as equivalent to a single sentence group for convenience. For example, as described later, there are cases where sentences are connected. A sentence is composed of one or more chunks. A chunk is configured as a string of one or more words. A word consists of one or more characters. The “series” is a series of language elements. The items, sentences, and chunks described here are all series.
The manuscript text is stored in the storage means as data having such a logical structure. Further, the logical structure can be appropriately changed by the processing. Changing the logical structure means, for example, connecting sentences or changing the range of chunks.

[1.前処理部による重複項目の検出]
第1の警告状況は、重複項目が存在することである。
このため、前処理部(811または911)は、項目間の距離が所定の閾値を下回る場合には、項目が重複していることを示す警告情報を出力する。具体的には次の通りである。
ニュース項目dの文の単語列を全て連結した単語列をd(ハット)として、その集合M(ハット)は、次の式(14)で表される。
[1. Detection of duplicate items by the preprocessing unit]
The first warning situation is that duplicate items exist.
For this reason, the pre-processing unit (811 or 911) outputs warning information indicating that the items are duplicated when the distance between the items is below a predetermined threshold. Specifically, it is as follows.
A word string obtained by concatenating all the word strings of the sentences of the news item d i is d (hat) i , and the set M (hat) is expressed by the following equation (14).

Figure 2016099515
Figure 2016099515

前処理部(811または911)この集合M(ハット)を用いて、次の式(15)および式(16)により、類似度の高い項目の対を検出する。また、前処理部(811または911)は、その検出された対における項目間の距離を算出する。   Pre-processing unit (811 or 911) Using this set M (hat), a pair of items having a high degree of similarity is detected by the following equations (15) and (16). The preprocessing unit (811 or 911) calculates the distance between items in the detected pair.

Figure 2016099515
Figure 2016099515

Figure 2016099515
Figure 2016099515

なお、式(15)、式(16)において、xとyはそれぞれ集合M(ハット)の要素であるところの、ニュース項目の単語列である。また、L(x,y)は、系列間の編集距離である。なお、この編集距離としては、例えば、レーベンシュタイン距離(Levenshtein distance)の改良版を用いる。このレーベンシュタイン距離の改良版については後述する。
式(15)に示すDは、集合M(ハット)に含まれるニュース項目の単語列(x,y)間における相互の距離の最小値である。また、式(16)に示すPは、そのような最小の距離をなすニュース項目の単語列の対である。
In Expressions (15) and (16), x and y are word strings of news items that are elements of the set M (hat). L (x, y) is an edit distance between series. As the editing distance, for example, an improved version of Levenshtein distance is used. An improved version of this Levenstein distance will be described later.
D d shown in Expression (15) is the minimum value of the mutual distance between the word strings (x, y) of the news items included in the set M (hat). Further, P d shown in the equation (16) is a pair of word strings of news items having such a minimum distance.

前処理部(811または911)は、集合Mにおいて、Dが所定の閾値(例えば、0.5)を下回った場合に、その距離Dをなすニュース項目対Pについての警告を出力する。閾値の設定が適切であれば、この警告は、原稿内に同一のニュース項目が存在することを表す。Dが上記の閾値を下回るような事象が生じる要因は、ニュース原稿のエラー、あるいはニュース原稿の整理が完了していない状況である。つまり、例えば、あるニュース項目の原稿文に修正が加えられたときに、その修正の前後の原稿が、集合M内に残ってしまっている場合などである。 Preprocessing unit (811 or 911) is in the set M, D d is a predetermined threshold value (e.g., 0.5) when the below, and outputs a warning about news items pair P d which forms the distance D d . If the threshold setting is appropriate, this warning indicates that the same news item exists in the document. D d factors that event such as below the above threshold occurs, a situation where errors news manuscript or organize news manuscript, is not completed. In other words, for example, when a correction is made to a manuscript sentence of a certain news item, the manuscript before and after the amendment remains in the set M.

前処理部(811または911)から出力された上記警告に基づき、音声認識誤り修正装置(800または900)のオペレーターは、例えば、ニュース項目対Pのうちのいずれか一方を削除するなどといった適切な処置を行う。
また、処置後の(つまり更新された)新たな集合Mについても、前処理部(811または911)は、同様の処理を行い、DおよびPを求める。そして、Dが上記閾値を下回った場合、上と同様に、警告を出力する。
そして、前処理部(811または911)は、Dが閾値を下回らなくなるまで、重複項目の検出と削除を繰り返し行う。
Based on the above warning output from the preprocessing unit (811 or 911), the operator of the speech recognition error correction apparatus (800 or 900), for example, appropriate, such as by removing either one of the news item pairs P d Take appropriate action.
Further, (i.e. updated) for even a new set M after treatment, the pre-processing unit (811 or 911) performs the same process to determine the D d and P d. When the D d is below the threshold, as above, and outputs a warning.
Then, the preprocessing unit (811 or 911) is, D d until no fall below the threshold value, repeating the detecting and eliminating duplicate items.

図16は、前処理部(811または911)によって検出される重複項目の第1の例を示す概略図である。同図において、「doc=323」および「doc=222」で識別されるニュース項目の対が、両者間の距離に基づき重複項目であるとして検出されたものである。「doc=323」の項目は、文324から327までの4文を含んでいる。「doc=222」の項目は、文223から229までの7文を含んでいる。両項目において、次の通り、文対が類似関係(同一関係にある場合も「類似」に含む)にある。即ち、文324と文223の類似度が高い。また、文325と文224の類似度が高い。また、文326と文225の類似度が高い。また、文327と、文227における「招致/推進部/は/2020/年/夏/の」以後の部分の類似性が高い。つまり、意味をも考慮すると、この項目対は、同一のニュースを表す重複項目であると考えられる。   FIG. 16 is a schematic diagram illustrating a first example of duplicate items detected by the preprocessing unit (811 or 911). In the figure, a pair of news items identified by “doc = 323” and “doc = 222” is detected as a duplicate item based on the distance between them. The item “doc = 323” includes four sentences from sentences 324 to 327. The item “doc = 222” includes seven sentences from sentences 223 to 229. In both items, the sentence pairs are in a similar relationship (including “similar” even if they are in the same relationship) as follows. That is, the similarity between the sentence 324 and the sentence 223 is high. Further, the similarity between the sentence 325 and the sentence 224 is high. Further, the similarity between the sentence 326 and the sentence 225 is high. Further, the similarity between the sentence 327 and the part after “invitation / promotion part / ha / 2020 / year / summer /” in the sentence 227 is high. In other words, considering the meaning, this item pair is considered to be a duplicate item representing the same news.

図17は、前処理部(811または911)によって検出される重複項目の第2の例を示す概略図である。同図において、「doc=81」と「doc=112」と「doc=99」で識別されるニュース項目が、各々の相互間の距離に基づき重複項目であるとして検出されたものである。「doc=81」の項目は、文82から84までの3文を含んでいる。「doc=112」の項目は、文113から115までの3文を含んでいる。「doc=99」の項目は、文100から102までの3文を含んでいる。これら項目において、次の通り、文同士が類似関係(同一関係にある場合も「類似」に含む)にある。即ち、文82と文113と文100の類似度が高い。また、文83と文114と文101の類似度が高い。また、文84と文115と文102の類似度が高い。また、各項目の文章の意味を考慮しても、これら3つの項目は、同一のニュースを表す重複項目であると考えられる。   FIG. 17 is a schematic diagram illustrating a second example of duplicate items detected by the preprocessing unit (811 or 911). In the figure, news items identified by “doc = 81”, “doc = 112”, and “doc = 99” are detected as duplicate items based on the distance between them. The item “doc = 81” includes three sentences 82 to 84. The item “doc = 112” includes three sentences 113 to 115. The item “doc = 99” includes three sentences 100 to 102. In these items, as described below, sentences are in a similar relationship (the case where they are in the same relationship is also included in “similar”). That is, the similarity between the sentence 82, the sentence 113, and the sentence 100 is high. Moreover, the similarity of the sentence 83, the sentence 114, and the sentence 101 is high. Moreover, the similarity of the sentence 84, the sentence 115, and the sentence 102 is high. Even considering the meaning of the text of each item, these three items are considered to be duplicate items representing the same news.

[2.前処理部による類似文の検出]
第2の警告状況は、原稿中に類似文が存在することである。
このため、前処理部(811または911)は、文間の距離が所定の閾値を下回る場合には、文が類似していることを示す警告情報を出力するとともに、類似している文のいずれかを、当該文の前の文または当該文の後の文に連結する修正の提案を出力する。具体的には次の通りである。
[2. Detection of similar sentences by the preprocessor]
The second warning situation is that a similar sentence exists in the document.
For this reason, the pre-processing unit (811 or 911) outputs warning information indicating that the sentences are similar when the distance between the sentences is below a predetermined threshold, and any of the similar sentences A suggestion for amendment that links to the sentence before or after the sentence is output. Specifically, it is as follows.

前処理部(811または911)は、異なるニュース項目対の中に含まれる類似文を検出する。
文lに含まれるチャンクの単語列をすべて連結してなる単語列をl(チルダ)とする。そして、M(チルダ)は、そのようなl(チルダ)を要素とする集合である。つまり、集合M(チルダ)は、下の式(17)で表される。
The preprocessing unit (811 or 911) detects similar sentences included in different news item pairs.
A word string formed by concatenating all the word strings of chunks included in the sentence l j is defined as l (tilde) j . M (tilde) is a set having such l (tilde) j as an element. That is, the set M (tilde) is expressed by the following equation (17).

Figure 2016099515
Figure 2016099515

集合M(チルダ)は、すべてのニュース項目に含まれる各文に対応する単語列を要素として有する。前処理部(811または911)は、この集合M(チルダ)をもとに、次の式(18)および式(19)により、類似度の高い文対を検出する。また、前処理部(811または911)は、検出された文対における文間の距離を求める。   The set M (tilde) has a word string corresponding to each sentence included in all news items as an element. Based on the set M (tilde), the preprocessing unit (811 or 911) detects sentence pairs having a high degree of similarity using the following expressions (18) and (19). Further, the preprocessing unit (811 or 911) obtains the distance between sentences in the detected sentence pair.

Figure 2016099515
Figure 2016099515

Figure 2016099515
Figure 2016099515

なお、式(18)、式(19)において、xとyはそれぞれ集合M(チルダ)の要素であるところの、文の単語列である。また、L(x,y)は、系列間の編集距離であり、一例としてレーベンシュタイン距離の改良版を用いる。   In Expressions (18) and (19), x and y are word strings of sentences that are elements of the set M (tilde). L (x, y) is an edit distance between sequences, and an improved version of the Levenshtein distance is used as an example.

式(18)に示すDは、集合M(チルダ)に含まれる文の単語列(x,y)間における相互の距離の最小値である。また、式(19)に示すPは、そのような最小の距離をなす文の対である。 D 1 shown in Expression (18) is the minimum value of the mutual distance between word strings (x, y) of sentences included in the set M (tilde). Further, Pl shown in Equation (19) is a sentence pair that forms such a minimum distance.

前処理部(811または911)は、Dが所定の閾値(例えば、0.5)を下回った場合に、その距離Dをなす文対Pについての警告を出力する。この警告は、ニュース原稿内に類似の文の対があることを示すものである。なお、その対をなす各文は、同一のニュース項目に属している場合もあり、また、異なるニュース項目に属している場合もある。 Preprocessing unit (811 or 911) is, D l is a predetermined threshold value (e.g., 0.5) when the below, and outputs a warning about text pairs P l and forming a distance D l. This warning indicates that there is a similar sentence pair in the news manuscript. Each pair of sentences may belong to the same news item, or may belong to different news items.

前処理部(811または911)によって検出された文対Pは、オペレーターの操作、あるいは機械による自動的な操作等に基づき、これらのいずれかの文、あるいは両方の文を、その前後の文と連結することにより、類似度を低めることができる。つまり、そのような連結により、対として検出された文間で充分な異なり(距離)を取ることができるようになる。そのような文の連結の方法として、良好な一例を次に説明する。 The sentence pair P l detected by the pre-processing unit (811 or 911), the operator of the operation, or on the basis of the automatic operation or the like by the machine, one of these sentences or both statements, statements before and after By connecting with, similarity can be lowered. That is, by such connection, a sufficiently different difference (distance) can be taken between sentences detected as a pair. A good example will be described below as a method for connecting such sentences.

文l(チルダ)と文l(チルダ)がともに集合M(チルダ)の要素であり、P=(l(チルダ),l(チルダ))である場合の文の連結方法を説明する。つまり、文l(チルダ)と文l(チルダ)とが集合M(チルダ)内での最少距離をなす。文l(チルダ)または文l(チルダ)のいずれかについて文を連結する方法は、次の4通りがある。
(1)l(チルダ)x−1とl(チルダ)を連結して新たな文とする。この連結後の文の集合をM(チルダ)とする。
(2)l(チルダ)とl(チルダ)x+1を連結して新たな文とする。この連結後の文の集合をM(チルダ)とする。
(3)l(チルダ)y−1とl(チルダ)を連結して新たな文とする。この連結後の文の集合をM(チルダ)とする。
(4)l(チルダ)とl(チルダ)y+1を連結して新たな文とする。この連結後の文の集合をM(チルダ)とする。
なお、l(チルダ)x−1およびl(チルダ)x+1は、それぞれ、原稿内において文l(チルダ)の1つ前の文および1つ後の文である。
Sentence l (tilde) x and sentence l (tilde) y are both elements of the set M (tilde), and P l = (l (tilde) x , l (tilde) y ) explain. That is, the sentence l (tilde) x and the sentence l (tilde) y form the minimum distance in the set M (tilde). There are four methods for concatenating sentences for either sentence l (tilde) x or sentence l (tilde) y .
(1) l (tilde) x-1 and l (tilde) x are connected to form a new sentence. Assume that the set of sentences after concatenation is M (tilde) 0 .
(2) l (tilde) x and l (tilde) x + 1 are connected to form a new sentence. Assume that the set of sentences after concatenation is M (tilde) 1 .
(3) l (tilde) y-1 and l (tilde) y are connected to form a new sentence. Assume that the set of sentences after concatenation is M (tilde) 2 .
(4) l (tilde) y and l (tilde) y + 1 are connected to form a new sentence. Assume that the set of sentences after concatenation is M (tilde) 3 .
Note that l (tilde) x−1 and l (tilde) x + 1 are a sentence immediately before and a sentence after sentence l (tilde) x in the document, respectively.

前処理部(811または911)は、これらにより、4通りの文集合であるM(チルダ),M(チルダ),M(チルダ),M(チルダ)を候補として生成する。前処理部(811または911)は、これら4通りの候補の文集合のそれぞれについて、式(18)によるDを計算する。そして、前処理部(811または911)は、M(チルダ),M(チルダ),M(チルダ),M(チルダ)の中で、Dを最大とする連結方法を採用する。なお、放送において読み上げられる項目の順序に変更がある場合や、項目を単位とした原稿の差し替えが行われ得る場合には、前処理部(811または911)は、項目をまたいだ文の連結を行わないような制約の下で、上記の操作を行う。その場合には、つまり、前処理部(811または911)は、項目をまたがない文の連結のみを候補とする。 Thus, the preprocessing unit (811 or 911) generates M (tilde) 0 , M (tilde) 1 , M (tilde) 2 , and M (tilde) 3 which are four sentence sets as candidates. The preprocessing unit (811 or 911) calculates D l according to the equation (18) for each of these four candidate sentence sets. Then, the preprocessing unit (811 or 911) is in the M (tilde) 0, M (tilde) 1, M (tilde) 2, M (tilde) 3, to adopt a connection method which maximizes the D l . When the order of items read out in broadcasting is changed, or when a document can be replaced in units of items, the preprocessing unit (811 or 911) connects the sentences across the items. The above operation is performed under the restriction not to be performed. In this case, in other words, the preprocessing unit (811 or 911) uses only concatenation of sentences that do not cross items as candidates.

また、あるDの値を与える文対が複数存在した場合には、前処理部(811または911)は、次のような処理を行う。
即ち、前処理部(811または911)は、その複数の文対のうちの一つ(この対を、l(チルダ)とl(チルダ)とする)について、l(チルダ)とl(チルダ)を含む項目のみで集合M(チルダ)を構成する。そして、前処理部(811または911)は、そのM(チルダ)の中で最適な文の連結を探す。文の連結のしかた自体は、上述した通りである。
そして、前処理部(811または911)は、そのような操作を、上記複数の文対の各々について繰り返す。
When there are a plurality of sentence pairs that give a value of D l, the preprocessing unit (811 or 911) performs the following processing.
That is, the preprocessing unit (811 or 911), for one of the plurality of text pairs (the pairs, and l (tilde) x and l (tilde) y), l (tilde) x and l (Tilde) A set M (tilde) is composed only of items including y . Then, the preprocessing unit (811 or 911) searches the M (tilde) for the optimum sentence connection. How to connect sentences is as described above.
Then, the preprocessing unit (811 or 911) repeats such an operation for each of the plurality of sentence pairs.

前処理部(811または911)は、集合M(チルダ)に関するDが閾値を下回らないようになるまで、上述した文連結の操作を繰り返す。前処理部(811または911)は、文連結した結果による原稿の修正についての提案を出力する。そして、オペレーターからの操作に基づき、前処理部(811または911)は、原稿を修正し、類似文を解消する。
以上説明したように、前処理部(811または911)は、連結後の集合内最少距離が連結前よりも大きくなるよう、文同士を連結する操作を行う。
Preprocessing unit (811 or 911) is until the D l for a set M (tilde) is not below the threshold, repeating the operation of statements linked described above. The pre-processing unit (811 or 911) outputs a proposal for correcting a document based on the result of sentence concatenation. Then, based on the operation from the operator, the preprocessing unit (811 or 911) corrects the document and eliminates the similar sentence.
As described above, the preprocessing unit (811 or 911) performs an operation of connecting sentences so that the minimum distance in the set after connection is larger than that before connection.

図18は、前処理部(811または911)によって検出された文対の例と、その文の一方を他の文と連結させる例を示す概略図である。同図に示すように、文1から11までが、ひとつの項目に含まれている。この項目は、似ている文を含む項目の例である。そして、前処理部(811または911)が、式(18)と式(19)により、似ている文対として抽出したものが、文2と文3の対である。このような文対を含む原稿に基づいて音声認識誤り修正の処理を行った場合、文2に相当する一連の状態遷移と、文3に相当する一連の状態遷移とで、実際の正解の文が最尤として認定されない可能性がある。具体的には、文2と文3では、文頭からの「関東/から/の/代表/8/校/の/初戦/の/対戦」の単語列が共通である。前処理部(811または911)は、文2と文3が類似であるということを検出した後、前述の通り、複数の連結方法を候補とする。つまり、文1と文2を連結する場合と、文2と文3を連結する場合と、文3と文4を連結する場合である。前処理部(811または911)は、それらそれぞれの場合における集合M(チルダ)についてDを計算し、Dの値が最も高くなる連結のしかたを採用し、これを提案として出力する。同図において、出力されている提案は、元の文1と文2とを連結して新たな文1とするものである。連結後の文1は、「今月6日に甲子園球場で開幕する夏の全国高校野球、きょうは組み合わせ抽選が行われました。関東からの代表8校の初戦の対戦相手が決まりました。」である。 FIG. 18 is a schematic diagram illustrating an example of a sentence pair detected by the preprocessing unit (811 or 911) and an example of linking one of the sentences with another sentence. As shown in the figure, sentences 1 to 11 are included in one item. This item is an example of an item including a similar sentence. A pair of sentence 2 and sentence 3 is extracted by the preprocessing unit (811 or 911) as a sentence pair similar to each other according to the expressions (18) and (19). When speech recognition error correction processing is performed based on a manuscript including such a sentence pair, an actual correct sentence with a series of state transitions corresponding to sentence 2 and a series of state transitions corresponding to sentence 3 May not be recognized as maximum likelihood. Specifically, the sentence 2 and the sentence 3 share the same word sequence of “Kanto / kara /// representative / 8 / school /// first match /// match” from the beginning of the sentence. After detecting that sentence 2 and sentence 3 are similar, the preprocessing unit (811 or 911) sets a plurality of connection methods as candidates as described above. That is, the case where sentence 1 and sentence 2 are connected, the case where sentence 2 and sentence 3 are connected, and the case where sentence 3 and sentence 4 are connected. Preprocessing unit (811 or 911), for collection in the case of their respective M (tilde) to calculate the D l, adopts the way of connecting the values of D l is the highest, and outputs it as proposed. In the same figure, the proposal that is output is to connect the original sentence 1 and sentence 2 to a new sentence 1. Sentence 1 after the concatenation is: “A summer national high school baseball season that will open at Koshien Stadium on the 6th of this month, today, a combined lottery was held. The opponents of the first eight matches from Kanto were decided.” It is.

[3.前処理部による短文の検出]
第3の警告状況は、原稿中に短文(短すぎる文)が存在することである。
このため、前処理部(811または911)は、文に含まれる単語数が所定の閾値より小さい場合には、文が短すぎることを示す警告情報を出力する。具体的には次の通りである。
[3. Detection of short sentences by the preprocessing unit]
The third warning situation is that a short sentence (a sentence that is too short) exists in the document.
For this reason, the preprocessing unit (811 or 911) outputs warning information indicating that the sentence is too short when the number of words included in the sentence is smaller than a predetermined threshold. Specifically, it is as follows.

前処理部(811または911)は、各文に含まれる単語数をカウントする。そして、集合Mに含まれる各文の単語数のうち、最も少ない単語数が予め定めた閾値を下回る場合に、その文に関する警告を出力する。それとともに、前処理部(811または911)は、その文を、前または後の文と連結する操作を行うことを提案として出力する。前の文と連結するか後の文と連結するかについては、連結後の集合Mにおける文のうちで最も少ない単語数が、より大きくなる方を採用する。また、ここでも、前述の通り、前処理部(811または911)は、項目の順序が入れ替えられたり項目自体が差し替えられたりする可能性がある場合には、項目をまたぐ文連結を行わないようにする。前処理部(811または911)は、オペレーターからの指示にしたがい、必要な修正を行う。   The preprocessing unit (811 or 911) counts the number of words included in each sentence. When the smallest number of words in each sentence included in the set M falls below a predetermined threshold, a warning regarding the sentence is output. At the same time, the preprocessing unit (811 or 911) outputs a proposal to perform an operation of linking the sentence with the preceding or succeeding sentence. For the connection with the previous sentence or the subsequent sentence, the one in which the smallest number of words among the sentences in the connected set M is larger is adopted. Also here, as described above, the pre-processing unit (811 or 911) does not perform sentence concatenation across items when the order of the items may be changed or the items themselves may be replaced. To. The pre-processing unit (811 or 911) performs necessary corrections in accordance with instructions from the operator.

集合M内で最も単語数の少ない文が、閾値以上の単語数を有するようになるまで、前処理部(811または911)は、上記の短文検出と修正の処理を繰り返す。これにより、短すぎる文が存在することによるエラーを防ぐことができる。   The pre-processing unit (811 or 911) repeats the short sentence detection and correction processes described above until the sentence with the smallest number of words in the set M has the number of words equal to or greater than the threshold. This can prevent errors due to the existence of sentences that are too short.

[4.前処理部による類似文頭チャンクの検出]
第4の警告状況は、原稿中に類似の文頭チャンクが存在することである。
このため、前処理部(811または911)は、文の先頭に位置する文頭チャンク間の距離が所定の閾値を下回る場合には、文頭チャンクが類似していることを示す警告情報を出力するとともに、類似している前記文頭チャンクの少なくともいずれかを後方に延長する修正の提案を出力する。具体的には次の通りである。
[4. Detection of similar sentence chunks by the preprocessing unit]
The fourth warning situation is that similar sentence chunks exist in the manuscript.
For this reason, the pre-processing unit (811 or 911) outputs warning information indicating that the beginning chunks are similar when the distance between the beginning chunks located at the beginning of the sentence is below a predetermined threshold. , Output a suggestion of modification that extends backwards at least one of the similar beginning chunks. Specifically, it is as follows.

文をチャンクに分割して扱う場合、文の一番目のチャンク同士が文間で類似している場合も、認識結果の修正を謝る要因となり得る。ここで、集合Mに含まれる各文の一番目のチャンクの集合を対象として、前処理部(811または911)は、以下の操作を行う。
各文の一番目のチャンクの集合は、下の式(20)で表される。
When a sentence is handled by being divided into chunks, even if the first chunks of sentences are similar between sentences, it may be a factor to apologize for the correction of the recognition result. Here, for the first chunk set of each sentence included in the set M, the preprocessing unit (811 or 911) performs the following operations.
The set of the first chunk of each sentence is expressed by the following equation (20).

Figure 2016099515
Figure 2016099515

そして、前処理部(811または911)は、下の式(21)と式(22)によるDおよびPを求める。 Then, the preprocessing unit (811 or 911) obtains D c and P c according to the following expressions (21) and (22).

Figure 2016099515
Figure 2016099515

Figure 2016099515
Figure 2016099515

は各文の第1チャンク間での距離の最小値である。また、PそのようなDをなす第1チャンクの対である。そして、Dが予め定めた閾値(例えば、0.5)を下回った場合に、前処理部(811または911)は、チャンク対Pに関する警告を出力する。
また、前処理部(811または911)は、上で警告を発した対象のチャンク対について、修正するための案を作成する。そのための処理を次に説明する。
D c is the minimum value of the distance between the first chunks of each sentence. P c is a pair of first chunks that forms such D c . When D c falls below a predetermined threshold (for example, 0.5), the preprocessing unit (811 or 911) outputs a warning regarding the chunk pair P c .
In addition, the preprocessing unit (811 or 911) creates a plan for correcting the target chunk pair that issued the warning above. The process for that will be described next.

チャンク対Pに含まれるチャンクxおよびyに関して、x’およびy’は、それぞれ、xおよびyを後ろ方向に1単語伸ばして得られるチャンクである。そして、前処理部(811または911)は、これらx’とy’を用いて、次の式(23)を求める。 Regarding the chunks x and y included in the chunk pair P c , x ′ and y ′ are chunks obtained by extending x and y backward by one word, respectively. Then, the preprocessing unit (811 or 911) obtains the following equation (23) using these x ′ and y ′.

Figure 2016099515
Figure 2016099515

そして、前処理部(811または911)は、式(23)の値を実現するよう、x’またはy’のいずれかを採用する。つまり、L(x’,y)>L(x,y’)のときはx’を採用し、L(x’,y)<L(x,y’)のときはy’を採用する。なお、L(x’,y)=L(x,y’)であった場合には、短いほう(単語数の少ないほう)のチャンクを伸ばす。前処理部(811または911)は、文頭における類似チャンクを解消するための提案を出力する。そして、前処理部(811または911)は、オペレーターからの指示にしたがい、必要な修正を行う。   Then, the preprocessing unit (811 or 911) employs either x ′ or y ′ so as to realize the value of Expression (23). That is, x ′ is adopted when L (x ′, y)> L (x, y ′), and y ′ is adopted when L (x ′, y) <L (x, y ′). If L (x ′, y) = L (x, y ′), the shorter chunk (the smaller number of words) is extended. The preprocessing unit (811 or 911) outputs a proposal for eliminating a similar chunk at the beginning of a sentence. Then, the preprocessing unit (811 or 911) performs necessary corrections in accordance with an instruction from the operator.

そして、前処理部(811または911)は、所定の条件を満たすようになるまで、上記の操作を繰り返し、チャンクを伸ばしていく。所定の条件とは、例えば、Dが閾値を下回らない状況になることである。前処理部(811または911)は、その条件を満たすようになると、延長されたチャンクを修正案として出力する。このような操作により、前処理部(811または911)は、文間の第1チャンク同士の類似を解消する。 Then, the preprocessing unit (811 or 911) repeats the above operation until the predetermined condition is satisfied, and extends the chunk. The predetermined condition is, for example, is to become a situation in which D c does not fall below the threshold. When the pre-processing unit (811 or 911) satisfies the condition, the pre-processing unit (811 or 911) outputs the extended chunk as a correction proposal. By such an operation, the preprocessing unit (811 or 911) cancels the similarity between the first chunks between sentences.

図19は、前処理部(811または911)によって検出された類似チャンクの例と、そのチャンクの延長を提案した例を示す概略図である。図示する例では、チャンク386と392が類似(同一である場合を含む)である。これらのチャンクは、異なる文に属するものである。この例では、このチャンク386と392は、同一の単語列であり、「今回の中間指針で群馬県の観光業が風評被害の対象として認められたことに」である。そして、前処理部(811または911)が上述した方法によって1単語ずつ伸ばしていき、両者の距離Dが閾値を下回らなくなったときの状態が、図内に示す「提案されたチャンクの延長」である。このように、前処理部(811または911)が文頭のチャンクの違いが充分に出るようにチャンクを延長することによって、音声認識誤り修正におけるエラーを防ぐことができる。 FIG. 19 is a schematic diagram illustrating an example of similar chunks detected by the preprocessing unit (811 or 911) and an example of proposing extension of the chunk. In the illustrated example, chunks 386 and 392 are similar (including the case where they are the same). These chunks belong to different sentences. In this example, the chunks 386 and 392 are the same word string, and “the tourism in Gunma Prefecture has been recognized as a subject of reputational damage by this intermediate guideline”. Then, the preprocessing unit (811 or 911) is gradually extended by one word by the method described above, the state when both the distance D c no longer fall below the threshold, "extension of the proposed chunks" shown in FIG. It is. As described above, the preprocessing unit (811 or 911) extends the chunk so that the difference between the chunks at the beginning of the sentence is sufficiently generated, thereby preventing an error in the speech recognition error correction.

[5.系列間の編集距離]
上述したように、前処理部(811または911)による処理においては、編集距離L(x,y)を算出する。この編集距離としては、レーベンシュタイン距離の改良版を用いる。本実施形態で用いる改良版は、系列間の編集距離のしかたに特徴がある。具体的には、この改良版は、系列末における挿入と削除をカウントしない。これは、本実施形態においては、系列の先頭部分に近いところの一致度合いを如何に低減させるかが重要であり、系列の後半の一致度合いの低減はそれほど重要ではないためである。
[5. Edit distance between series]
As described above, in the processing by the preprocessing unit (811 or 911), the edit distance L (x, y) is calculated. As this editing distance, an improved version of the Levenshtein distance is used. The improved version used in the present embodiment is characterized by the edit distance between sequences. Specifically, this improved version does not count insertions and deletions at the end of the sequence. This is because in the present embodiment, it is important how to reduce the degree of matching near the beginning of the sequence, and it is not so important to reduce the degree of matching in the latter half of the sequence.

図20は、系列間におけるレーベンシュタイン距離の改良版を算出するための計算手順を示すプログラムの疑似コードである。この疑似コードにおいて、文字列「//」から行末まではプログラムのコメントであり、実行コードに影響を与えない。ソースコードの第1行目で定義している関数LevenshteinDistance()は、2つの文字列型パラメーターstr1およびstr2を入力とする。関数LevenshteinDistance()は整数値を返す。返される関数値は改良版のレーベンシュタイン距離の値である。lenStr1およびlenStr2は、それぞれ、入力パラメーターである文字列の長さである。なお、lenStr1≦lenStr2である。コードの第4行目は、作業領域として用いる整数型配列dの宣言である。dのサイズは、第1次元(行)が(lenStr1+1)であり、第2次元(列)が(lenStr2+1)である。コードの第6行目は、整数型変数の宣言である。変数i1とi2は、それぞれ、文字列str1とstr2を数え上げるためのものである。変数costは、両文字列間において対比する文字が一致するか否かに依るコストを一時的に格納するためのものである。なお、文字が一致するならばコスト0とし、不一致ならばコスト1とする。第7行目から第8行目までのfor文によるループと、第9行目から第10行目までのfor文によるループは、配列dを初期化するものである。具体的には、配列dを第0行・第0列から始まる行列と見たとき、第0行目の各要素と、第0列目の各要素を初期化している。第11行目から始まる、二重にネストされたfor文は、文字列str1とstr2の各要素である文字同士を比較しながら、レーベンシュタイン距離を求めるためのテーブル(配列d)に値を埋めていくものである。第13行目のif文は、対応する文字同士が同一である場合には当該位置間のコストを0とし、不一致の場合には同コストを1とする。第15行目の代入文の右辺のminimum()関数は、パラメーターの中の最小値を返す関数である。この代入文により、両文字列間の比較において文字が挿入されている場合または文字が削除されている場合には、編集距離を1だけ増加(カウントアップ)させる。また、文字が置換されているか否かは、上記のコスト(変数cost)が表しており、その変数値を加算している。この配列dは、最小のコスト(編集操作)による文字列間の差異を表している。言い換えれば、この配列は、両文字列間を一致させるためのエネルギー最小のパスを示している。最後の行のreturn文は、改良されたレーベンシュタイン距離の値を返す。このプログラムが通常のレーベンシュタイン距離を算出するプログラムと異なる点は、系列末の挿入と削除をカウントしないことである。なお、ここで説明したアルゴリズムは、文字列だけでなく単語列にも同様に適用できる。   FIG. 20 is a pseudo code of a program showing a calculation procedure for calculating an improved version of the Levenshtein distance between series. In this pseudo code, the character string “//” to the end of the line is a comment of the program and does not affect the execution code. The function LefteinDistance () defined in the first line of the source code receives two string type parameters str1 and str2. The function LeaventainDistance () returns an integer value. The function value returned is the improved Levenshtein distance value. lenStr1 and lenStr2 are the lengths of character strings that are input parameters, respectively. Note that lenStr1 ≦ lenStr2. The fourth line of the code is a declaration of an integer type array d used as a work area. Regarding the size of d, the first dimension (row) is (lenStr1 + 1), and the second dimension (column) is (lenStr2 + 1). The sixth line of code is an integer variable declaration. The variables i1 and i2 are for counting up the character strings str1 and str2, respectively. The variable cost is for temporarily storing the cost depending on whether or not the characters to be compared match between the two character strings. If the characters match, the cost is 0. If they do not match, the cost is 1. The loop by the for sentence from the 7th line to the 8th line and the loop by the for sentence from the 9th line to the 10th line initialize the array d. Specifically, when the array d is viewed as a matrix starting from the 0th row and the 0th column, each element in the 0th row and each element in the 0th column are initialized. Starting from the 11th line, the double nested for statement fills the table (array d) for calculating the Levenshtein distance while comparing the characters that are the elements of the character strings str1 and str2. It will be. The if sentence on the 13th line sets the cost between the positions to 0 if the corresponding characters are the same, and sets the cost to 1 if they do not match. The minimum () function on the right side of the assignment statement on the 15th line is a function that returns the minimum value among the parameters. With this assignment statement, when a character is inserted or deleted in comparison between both character strings, the edit distance is increased by 1 (counted up). Further, whether or not a character is replaced is represented by the above cost (variable cost), and the variable value is added. This array d represents the difference between character strings due to the minimum cost (editing operation). In other words, this array shows the path with the minimum energy for matching both character strings. The return statement in the last line returns an improved Levenshtein distance value. The difference between this program and the normal Levenstein distance calculation program is that it does not count insertions and deletions at the end of the sequence. The algorithm described here can be applied not only to character strings but also to word strings.

図21は、上記のプログラムによって、改良版のレーベンシュタイン距離を算出した実行例を示す概略図である。この実行例は、文字の系列を処理対象とするもので、ありseq1=adcefg、seq2=abcdefghijとし、これら2系列間の距離を求めるものである。同図に示す実行例は、ビタビノードのスコア行列である。つまり、図21は、図20に示した関数の処理を終えたときの配列dが格納している値を行列形式で示す。図20に示したコードでは、「thisrow」の不要部分を取り除いて表示する。通常のレーベンシュタイン距離の算出では、図21に示す行列の右下の値(つまり、「5」)が算出される。本実施形態で用いる改良版の距離の算出では、図示する行列の最下行における最小値(つまり、「2」)が算出される。これは、改良版の距離の算出におおいて、系列末の挿入を無視しているためである。   FIG. 21 is a schematic diagram illustrating an execution example in which the improved version of the Levenshtein distance is calculated by the above program. In this execution example, a character series is processed, and there is seq1 = adcefg and seq2 = abcdefghij, and a distance between these two series is obtained. The execution example shown in the figure is a Viterbi node score matrix. That is, FIG. 21 shows the values stored in the array d when the processing of the function shown in FIG. In the code shown in FIG. 20, unnecessary parts of “thisrow” are removed and displayed. In the normal calculation of the Levenshtein distance, the lower right value (that is, “5”) of the matrix shown in FIG. 21 is calculated. In calculating the distance of the improved version used in the present embodiment, the minimum value (that is, “2”) in the lowest row of the illustrated matrix is calculated. This is because the insertion of the end of the sequence is ignored in the distance calculation of the improved version.

なお、上記の第1実施形態および第2実施形態を、次のように変形しても良い。
前処理部(811または911)が、必ずしも、上で説明した4種類の警告状況(重複項目の存在、類似文の存在、短文(短すぎる文)の存在、文頭における類似チャンクの存在)のすべてに対応する必要はない。これらの一部のみに前処理部(811または911)が対応するようにしても良い。
また、必ずしも単語を言語単位としなくても良い。代わりに、文字や音素などを言語単位とし、このような言語単位の系列間の距離に基づいて同様の処理を行っても良い。
また、上で、いくつかの閾値(系列間の距離の閾値等)に言及した。これらの閾値は、すべて同じ値であっても良いし、それぞれが異なる値であっても良い。
The first embodiment and the second embodiment described above may be modified as follows.
The pre-processing unit (811 or 911) does not necessarily have all of the four types of warning conditions described above (existence of duplicate items, existence of similar sentences, existence of short sentences (too short sentences), existence of similar chunks at the beginning of sentences). There is no need to deal with. The preprocessing unit (811 or 911) may correspond to only a part of these.
In addition, a word does not necessarily have to be a language unit. Instead, characters and phonemes may be used as language units, and similar processing may be performed based on the distance between sequences of such language units.
In the above, several threshold values (threshold value for distance between series, etc.) are mentioned. These threshold values may all be the same value, or may be different values.

なお、上述した各実施形態における各装置の全部または一部の機能をコンピューターで実現するようにしても良い。その場合、それらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   In addition, you may make it implement | achieve all or one part function of each apparatus in each embodiment mentioned above with a computer. In that case, a program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明は、音声認識結果を利用した字幕等のコンテンツの作成に利用することができる。本発明は、例えば、放送事業や、その他のコンテンツ提供事業において、利用することが可能である。   The present invention can be used to create content such as subtitles using a speech recognition result. The present invention can be used in, for example, a broadcasting business and other content providing businesses.

100 音声認識誤り修正装置
110 WFST記憶手段(対応原稿集合記憶手段,有限状態トランスデューサー情報記憶部)
120 ノードデータ更新手段
130 ノードデータ記憶手段
140 原稿探索手段
141 最大スコアノード検出手段
142 トレースバック手段
143 原稿分割手段
144 出力候補記憶手段
145 編集距離算出手段
146 編集距離判別手段
147 確定出力記憶手段
148 確定時刻記憶手段
150 原稿出力手段
200 原稿テキスト集合(原稿テキスト記憶部)
220 音声認識装置
240 トランスデューサー構築装置
241 単語ネットワーク登録手段
242 編集ネットワーク登録手段
600 音声認識誤り修正装置
610 WFST記憶部(有限状態トランスデューサー情報記憶部)
620 ノードデータ更新部
630 ノードデータ記憶部
640 原稿探索部
641 最尤ノード検出部
642 トレースバック部
643 原稿分割部
644 出力候補記憶部
645 誤りスコア算出部
646 誤りスコア判別部
647 確定出力記憶部
648 確定時刻記憶部
650 出力部
700 原稿テキスト記憶装置(原稿テキスト記憶部)
720 音声認識装置
740 トランスデューサー構築装置
741 単語ネットワーク登録部
742 編集ネットワーク登録部
800,900 音声認識誤り修正装置
811,911 前処理部
100 voice recognition error correction device 110 WFST storage means (corresponding document set storage means, finite state transducer information storage section)
120 Node data update means 130 Node data storage means 140 Document search means 141 Maximum score node detection means 142 Traceback means 143 Document division means 144 Output candidate storage means 145 Edit distance calculation means 146 Edit distance determination means 147 Final output storage means 148 Confirm Time storage means 150 Document output means 200 Document text set (document text storage section)
220 Speech recognition device 240 Transducer construction device 241 Word network registration means 242 Editing network registration means 600 Speech recognition error correction device 610 WFST storage unit (finite state transducer information storage unit)
620 Node data update unit 630 Node data storage unit 640 Document search unit 641 Maximum likelihood node detection unit 642 Traceback unit 643 Document division unit 644 Output candidate storage unit 645 Error score calculation unit 646 Error score determination unit 647 Confirmation output storage unit 648 Determination Time storage unit 650 Output unit 700 Document text storage device (document text storage unit)
720 Speech recognition device 740 Transducer construction device 741 Word network registration unit 742 Editing network registration unit 800,900 Speech recognition error correction device 811, 911 Preprocessing unit

Claims (5)

原稿テキストを記憶する原稿テキスト記憶部と、
前記原稿テキスト記憶部に記憶された前記原稿テキストに含まれる言語要素の系列に関して、複数の前記系列間の類似度を表す距離を算出するとともに、算出された前記距離が所定の閾値を下回るか否かによって類似の系列を検出し、類似の系列が検出された場合には警告情報を出力し、検出された類似の系列のうちの少なくともいずれかについて前記原稿テキストを操作することによって類似を解消するための修正の提案を出力するとともに、外部から入力された指示にしたがって前記原稿テキストを修正する前処理部と、
前記原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、
前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、
前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、
処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、
前記原稿探索部によって求められた前記確定出力を出力する出力部と、
を具備することを特徴とする音声認識誤り修正装置。
An original text storage unit for storing the original text;
With respect to a sequence of language elements included in the document text stored in the document text storage unit, a distance representing a similarity between the plurality of sequences is calculated, and whether the calculated distance is less than a predetermined threshold value If a similar sequence is detected, warning information is output when a similar sequence is detected, and the similarity is resolved by manipulating the original text for at least one of the detected similar sequences. And a preprocessing unit for correcting the manuscript text in accordance with an externally input instruction;
A finite state transducer that sequentially accepts words input as speech recognition results corresponding to the manuscript text, and performs state transition while accepting errors in words included in the speech recognition results Finite state transducer information storage that stores information about the state of the finite state transducer that makes a transition, and information including a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition. And
A node data storage unit for storing a score representing the likelihood of the state in the finite state transducer;
While receiving an input of a recognition word that is a speech recognition result corresponding to the document text from outside, according to the received recognition word, a score at the time for each state in the finite state transducer is calculated, A node data update unit that updates the node data storage unit using the calculated score;
When an activation signal indicating the start of processing is received from the outside, the node data storage unit is referred to determine the maximum likelihood node at that time and refer to the finite state transducer information storage unit and the node data storage unit Then, by tracing back the state transition to the maximum likelihood node, a traceback process is performed up to a predetermined time when the state transition has been confirmed, and the path of the state transition subjected to the traceback process is set as an output candidate and output. With respect to the candidate path, an error score is calculated according to a ratio in which the state transition related to the error is included in the path, and the error score is smaller than a predetermined threshold based on the calculated error score. A manuscript search unit that uses a path output candidate as a final output;
An output unit for outputting the determined output obtained by the document search unit;
A speech recognition error correction apparatus comprising:
前記原稿テキストは、複数の項目で構成されており、
前記前処理部は、前記項目間の前記距離が所定の閾値を下回る場合には、項目が重複していることを示す前記警告情報を出力する、
ことを特徴とする請求項1に記載の音声認識誤り修正装置。
The manuscript text is composed of a plurality of items,
The pre-processing unit outputs the warning information indicating that the items are duplicated when the distance between the items is below a predetermined threshold.
The speech recognition error correction apparatus according to claim 1.
前記原稿テキストは、複数の文を含んで構成されており、
前記前処理部は、前記文間の前記距離が所定の閾値を下回る場合には、文が類似していることを示す前記警告情報を出力するとともに、類似している前記文のいずれかを、当該文の前の文または当該文の後の文に連結する修正の提案を出力する、
ことを特徴とする請求項1または2に記載の音声認識誤り修正装置。
The manuscript text includes a plurality of sentences,
The pre-processing unit outputs the warning information indicating that the sentences are similar when the distance between the sentences is less than a predetermined threshold, and selects any of the similar sentences. Outputs a suggestion of modification to be linked to the sentence before or after the sentence,
The speech recognition error correction apparatus according to claim 1 or 2,
前記原稿テキストは、複数の文を含んで構成されており、
前記文は、1つ以上のチャンクから構成されており、
前記前処理部は、文の先頭に位置する文頭チャンク間の前記距離が所定の閾値を下回る場合には、文頭チャンクが類似していることを示す前記警告情報を出力するとともに、類似している前記文頭チャンクの少なくともいずれかを後方に延長する修正の提案を出力する、
ことを特徴とする請求項1から3までのいずれか一項に記載の音声認識誤り修正装置。
The manuscript text includes a plurality of sentences,
The sentence is composed of one or more chunks,
The pre-processing unit outputs the warning information indicating that the head chunk is similar when the distance between the head chunks located at the head of the sentence is below a predetermined threshold, and is similar. Outputting a suggestion of modification to extend backwards at least one of the beginning chunks;
The speech recognition error correction apparatus according to any one of claims 1 to 3.
前記原稿テキストは、複数の文を含んで構成されており、
前記前処理部は、前記文に含まれる単語数が所定の閾値より小さい場合には、文が短すぎることを示す前記警告情報を出力する、
ことを特徴とする請求項1から4までのいずれか一項に記載の音声認識誤り修正装置。
The manuscript text includes a plurality of sentences,
The pre-processing unit outputs the warning information indicating that the sentence is too short when the number of words included in the sentence is smaller than a predetermined threshold;
The speech recognition error correction apparatus according to any one of claims 1 to 4, wherein
JP2014236949A 2014-11-21 2014-11-21 Speech recognition error correction device Active JP6406988B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014236949A JP6406988B2 (en) 2014-11-21 2014-11-21 Speech recognition error correction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014236949A JP6406988B2 (en) 2014-11-21 2014-11-21 Speech recognition error correction device

Publications (2)

Publication Number Publication Date
JP2016099515A true JP2016099515A (en) 2016-05-30
JP6406988B2 JP6406988B2 (en) 2018-10-17

Family

ID=56077789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014236949A Active JP6406988B2 (en) 2014-11-21 2014-11-21 Speech recognition error correction device

Country Status (1)

Country Link
JP (1) JP6406988B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845101A (en) * 2017-01-17 2017-06-13 泰康保险集团股份有限公司 Information input method and system
CN112397053A (en) * 2020-11-02 2021-02-23 腾讯科技(深圳)有限公司 Voice recognition method and device, electronic equipment and readable storage medium
CN112507705A (en) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 Position code generation method and device and electronic equipment
CN113782030A (en) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 Error correction method based on multi-mode speech recognition result and related equipment

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185183A (en) * 1997-09-03 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Speech recognition system and its apparatus as well as storage medium recording speech recognition processing program
JP2000089786A (en) * 1998-09-08 2000-03-31 Nippon Hoso Kyokai <Nhk> Method for correcting speech recognition result and apparatus therefor
JP2001343994A (en) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> Voice recognition error detector and storage medium
JP2012128188A (en) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> Text correction device and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185183A (en) * 1997-09-03 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Speech recognition system and its apparatus as well as storage medium recording speech recognition processing program
JP2000089786A (en) * 1998-09-08 2000-03-31 Nippon Hoso Kyokai <Nhk> Method for correcting speech recognition result and apparatus therefor
JP2001343994A (en) * 2000-06-01 2001-12-14 Nippon Hoso Kyokai <Nhk> Voice recognition error detector and storage medium
JP2012128188A (en) * 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> Text correction device and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佐藤庄衛他: "ローカル番組への字幕付与方式の提案", 映像情報メディア学会2014年年次大会講演予稿集[CD−ROM], JPN6018025352, 10 August 2014 (2014-08-10), ISSN: 0003859145 *
佐藤庄衛他: "原稿WFSTを利用した誤認識修正アルゴリズム", 日本音響学会2014年春季研究発表会講演論文集[CD−ROM], JPN6018018282, 3 March 2014 (2014-03-03), pages 65 - 66, ISSN: 0003859144 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845101A (en) * 2017-01-17 2017-06-13 泰康保险集团股份有限公司 Information input method and system
CN112397053A (en) * 2020-11-02 2021-02-23 腾讯科技(深圳)有限公司 Voice recognition method and device, electronic equipment and readable storage medium
CN112397053B (en) * 2020-11-02 2022-09-06 腾讯科技(深圳)有限公司 Voice recognition method and device, electronic equipment and readable storage medium
CN112507705A (en) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 Position code generation method and device and electronic equipment
CN112507705B (en) * 2020-12-21 2023-11-14 北京百度网讯科技有限公司 Position code generation method and device and electronic equipment
CN113782030A (en) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 Error correction method based on multi-mode speech recognition result and related equipment
CN113782030B (en) * 2021-09-10 2024-02-02 平安科技(深圳)有限公司 Error correction method based on multi-mode voice recognition result and related equipment

Also Published As

Publication number Publication date
JP6406988B2 (en) 2018-10-17

Similar Documents

Publication Publication Date Title
CN106847288B (en) Error correction method and device for voice recognition text
CN109635270B (en) Bidirectional probabilistic natural language rewrite and selection
CN106534548B (en) Voice error correction method and device
US8719021B2 (en) Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US7693715B2 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
JP4580885B2 (en) Scene information extraction method, scene extraction method, and extraction apparatus
CN106570180B (en) Voice search method and device based on artificial intelligence
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
US6172675B1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
KR101739531B1 (en) Apparatus and method for recognizing speech
WO1998025216A9 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
JP6406988B2 (en) Speech recognition error correction device
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
Bahl et al. Automatic recognition of continuously spoken sentences from a finite state grammer
Akbacak et al. Open-vocabulary spoken term detection using graphone-based hybrid recognition systems
CN112951211B (en) Voice awakening method and device
US11869491B2 (en) Abstract generation device, method, program, and recording medium
JP6508808B2 (en) Speech recognition error correction device
JP6358744B2 (en) Speech recognition error correction device
US12073177B2 (en) Method and apparatus for improved automatic subtitle segmentation using an artificial neural network model
JP6232282B2 (en) Speech recognition error correction device
JP5623380B2 (en) Error sentence correcting apparatus, error sentence correcting method and program
Kuo et al. Syntactic features for Arabic speech recognition
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
Sarikaya et al. Word level confidence measurement using semantic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180918

R150 Certificate of patent or registration of utility model

Ref document number: 6406988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250