JP6358744B2 - Speech recognition error correction device - Google Patents

Speech recognition error correction device Download PDF

Info

Publication number
JP6358744B2
JP6358744B2 JP2014170540A JP2014170540A JP6358744B2 JP 6358744 B2 JP6358744 B2 JP 6358744B2 JP 2014170540 A JP2014170540 A JP 2014170540A JP 2014170540 A JP2014170540 A JP 2014170540A JP 6358744 B2 JP6358744 B2 JP 6358744B2
Authority
JP
Japan
Prior art keywords
transition
output
state
word
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014170540A
Other languages
Japanese (ja)
Other versions
JP2016045414A (en
Inventor
庄衛 佐藤
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014170540A priority Critical patent/JP6358744B2/en
Publication of JP2016045414A publication Critical patent/JP2016045414A/en
Application granted granted Critical
Publication of JP6358744B2 publication Critical patent/JP6358744B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識誤り修正装置に関する。   The present invention relates to a speech recognition error correction apparatus.

近年、テレビ等の番組における字幕テキストの付与を自動的に行う技術について研究されている。
非特許文献1には、生放送のニュース番組への字幕付与を目的としたアプローチの一つに、スペインのCARTVの例が記載されている。非特許文献1に記載されたシステムは、ニュース項目とその順番、読み原稿が与えられていることを前提とし、読み原稿の単語を一列の音素列とし、入力音声で強制アライメントを施して原稿の読み上げ部分を特定している。強制アライメントとは発話内容の音素列が与えられたときに、各音素と発話音声区間の対応を得るアルゴリズムである。このシステムでは、原稿のどの部分を読んでいるのかを音素単位で特定できるため、早期に字幕文を確定して番組映像と整合性の高い字幕を出力することができる。
In recent years, research has been conducted on techniques for automatically providing subtitle texts in programs such as television.
Non-Patent Document 1 describes an example of Spanish CARTV as one of the approaches for providing captions to a live broadcast news program. The system described in Non-Patent Document 1 is based on the premise that news items, their order, and a reading manuscript are given. The reading part is specified. The forced alignment is an algorithm for obtaining correspondence between each phoneme and a speech voice section when a phoneme string of speech content is given. In this system, it is possible to specify which part of the original is being read in units of phonemes, so that it is possible to determine a caption sentence at an early stage and output a caption with high consistency with a program video.

また、特許文献1には、単語単位で認識単語列と読み原稿を比較して音声認識誤りを修正する技術が開示されている。特許文献1に記載されたテキスト修正装置では、長さNの単語連鎖ブロックで、音声認識結果の単語列と原稿内の単語列を比較することを特徴としている。   Patent Document 1 discloses a technique for correcting a speech recognition error by comparing a recognized word string and a read original in units of words. The text correction device described in Patent Document 1 is characterized in that a word string in a speech recognition result is compared with a word string in a document in a word chain block of length N.

特開2012−128188号公報JP 2012-128188 A

J. E. Garcia, A. Ortega, E. Lleida, T. Lozano, E. Bernues, D. Sanchez, Aragon Inst. for Eng. Res.,Univ. of Zaragoza,Zaragoza,"Audio and text synchronization for TV news sub-titling based on Automatic Speech Recognition",BMSB '09.,IEEE International Symposium on Broadband Multimedia Systems and Broadcasting,2009年JE Garcia, A. Ortega, E. Lleida, T. Lozano, E. Bernues, D. Sanchez, Aragon Inst. For Eng. Res., Univ. Of Zaragoza, Zaragoza, "Audio and text synchronization for TV news sub-titling based on Automatic Speech Recognition ", BMSB '09., IEEE International Symposium on Broadband Multimedia Systems and Broadcasting, 2009

非特許文献1に記載されたシステムが採用するアルゴリズムでは、発話音声と音素列に不一致がある場合には著しく精度が低下するという問題がある。   The algorithm employed by the system described in Non-Patent Document 1 has a problem that the accuracy is significantly lowered when there is a discrepancy between the uttered speech and the phoneme string.

一方、ニュース番組の多くは、ニュース項目とその順番を事前に特定することは難しい。番組の放送中にニュース項目の順序が変更されることも多い。非特許文献1に記載されたCARTVの例では、ニュース編集コンピューターシステム(NRCS)と連携した大規模なシステムを構築しているため、ニュース項目や項目順が更新される度にアライメントに用いるための音素列を更新する手法を取っている。   On the other hand, in many news programs, it is difficult to specify news items and their order in advance. The order of news items is often changed during the broadcast of a program. In the example of CARTV described in Non-Patent Document 1, since a large-scale system linked with a news editing computer system (NRCS) is constructed, it is used for alignment whenever a news item or item order is updated. The phoneme sequence is updated.

しかし、非特許文献1がそのような手法を取っていても、NRCSでの管理に基づく音素列の更新が間に合わなかったり、原稿の読み飛ばしや言い換えがあったりした場合には、適切なアライメントができなくなる。そこで、アライメント位置を修正するために、番組進行の目安となるラップタイムや、インサート映像の再生タイミングを取得して利用しており、複雑で大規模なシステムを構築することが必要となっている。さらに、番組内には、インサート映像のインタビューなど、NRCSでは発話内容を管理していない部分もある。したがって、そのような部分でアライメントが進行しないようにするため、上記のインサート映像を管理して、その再生情報をもとにアライメントヘの入力を停止するなどといった複雑な制御も必要となる。   However, even if Non-Patent Document 1 adopts such a method, if the phoneme string update based on the management by NRCS is not in time, or if the document is skipped or paraphrased, appropriate alignment is performed. become unable. Therefore, in order to correct the alignment position, it is necessary to construct a complicated and large-scale system by acquiring and using a lap time that is a guide for program progression and the playback timing of the insert video. In addition, there are parts of the program where the content of utterances is not managed by the NRCS, such as an interview of an insert video. Therefore, in order to prevent the alignment from progressing in such a portion, complicated control such as managing the above-described insert video and stopping the input to the alignment based on the reproduction information is also required.

例えば、自動字幕制作システムを必要とする地方放送局においては、このような複雑なシステムの構築と維持は困難であり、より簡易なシステムが求められる。   For example, in a local broadcasting station that requires an automatic caption production system, it is difficult to construct and maintain such a complicated system, and a simpler system is required.

また、特許文献1の技術では、上記のような複雑なシステムの構成を必要とはしないものの、認識単語仮説列の文境界を推定していないため、不適切な原稿区間と音声認識結果の単語列とを照合してしまう結果、文境界やブロック境界に認識誤りがあったり、原稿の読み飛ばしや言い換えがあったり、原稿にない発話の追加があったりした場合、ブロック境界において、単語が欠落したり、同じ単語が2回出力されるなどの自動修正の誤りが生じる。このような自動修正誤りは、音声認識結果による単語仮説列の境界(文境界)が未知であるかぎり、音声認識結果と原稿との対応をとる区間の単位を文や他の単位としても同様に生じる。   Further, although the technique of Patent Document 1 does not require the complicated system configuration as described above, it does not estimate the sentence boundary of the recognition word hypothesis sequence, so that an inappropriate manuscript section and words of speech recognition result As a result of collating with the column, if there is a recognition error at the sentence boundary or block boundary, skipping or paraphrasing the manuscript, or adding an utterance that is not in the manuscript, the word is missing at the block boundary Or automatic correction errors such as the same word being output twice. Such an automatic correction error is the same even if the unit of the section in which the speech recognition result corresponds to the manuscript is set as a sentence or other unit as long as the boundary (sentence boundary) of the word hypothesis sequence based on the speech recognition result is unknown. Arise.

本発明は、上記のような事情を考慮して為されたものであり、簡易なシステム構成でより精度の高い音声認識誤り修正装置を提供するものである。
また特に、本発明は、発話者が原稿を最後まで読み上げる前であっても、途中の適切な段階で出力文(修正後の文)を確定することをも可能にする音声認識誤り修正装置を提供するものである。
The present invention has been made in view of the above circumstances, and provides a speech recognition error correction apparatus with higher accuracy with a simple system configuration.
In particular, the present invention provides a speech recognition error correction device that can determine an output sentence (corrected sentence) at an appropriate stage in the middle even before the speaker reads the entire document. It is to provide.

上記の課題を解決するため、本発明の一態様による音声認識誤り修正装置は、原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重み(遷移にかかるコスト)とを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、前記原稿探索部によって求められた前記確定出力を出力する出力部と、を具備する音声認識誤り修正装置であって、前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿テキストに含まれる文を複数のチャンクに分割し、前記チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に前記出力遷移を設けた前記有限状態トランスデューサーの、前記状態に関する情報および前記状態遷移に関する情報を記憶する、ことを特徴とする。   In order to solve the above problems, a speech recognition error correction apparatus according to an aspect of the present invention is a finite state transducer that sequentially transitions while accepting words input as speech recognition results in response to a document text. Information about the state of the finite state transducer that makes a state transition while also accepting an error in a word included in the speech recognition result, and a transition source state, a transition destination state, and an input symbol with respect to the state transition. A finite state transducer information storage unit that stores information including an output symbol and transition weight (cost required for transition), and a node data storage unit that stores a score representing the likelihood of the state in the finite state transducer And receiving an input of a recognition word that is a speech recognition result corresponding to the document text from outside In addition, a node data update unit that calculates a score at the time for each state in the finite state transducer according to the received recognition word, and updates the node data storage unit using the calculated score And when an activation signal indicating the start of processing is received from the outside, by referring to the node data storage unit, the maximum likelihood node at that time is determined, and the finite state transducer information storage unit, the node data storage unit, The traceback process is performed until the predetermined time when the state transition is confirmed by tracing back the state transition to the maximum likelihood node, and the path of the state transition subjected to the traceback process is set as an output candidate. , For the path that is an output candidate, the ratio of the state transition related to the error to the path A corresponding error score is calculated, and when the degree of error is smaller than a predetermined threshold based on the calculated error score, an output candidate of the path is obtained by the document search unit that determines output and the document search unit An output unit for outputting the determined output, wherein the finite state transducer information storage unit outputs the output transition where the output symbol is a non-empty state transition to the state. The output transition is provided after a path of state transition in which a sentence included in the original text is divided into a plurality of chunks and a word included in the chunk is accepted as an input symbol. The information on the state and the information on the state transition of the finite state transducer are stored.

この特徴を有する音声認識誤り修正装置において、文は複数のチャンクに分割されている。またそのチャンクに含まれる単語を入力シンボルとして受理した後、出力遷移を実行し、出力シンボルを出力する。つまり、文の途中に出力遷移が存在する。したがって、この音声認識誤り修正装置は、文の途中においても確定した出力シンボルを出力し得る。
なお、上記の遷移重みは、状態遷移に関するコストを表す数値データである。一例として、遷移重みがゼロのときにコスト最小であり、負の遷移重みの値が小さくなるほど(つまり、その負値の絶対値が大きいほど)コストが大きくなるように、遷移重みを定義する。しかし、遷移重みについて、この定義の符号を逆転させたり、またその他の定義を用いたりしても良い。状態遷移ごとにその重みが設定されていることにより、この重みを用いて。最尤ノードを求める際のスコアを算出することができる。
In the speech recognition error correction apparatus having this feature, a sentence is divided into a plurality of chunks. Further, after accepting a word included in the chunk as an input symbol, an output transition is executed and an output symbol is output. That is, there is an output transition in the middle of the sentence. Therefore, this speech recognition error correction apparatus can output the determined output symbol even in the middle of a sentence.
The above transition weight is numerical data representing the cost related to the state transition. As an example, the transition weight is defined such that the cost is minimum when the transition weight is zero, and the cost increases as the negative transition weight value decreases (that is, the absolute value of the negative value increases). However, for the transition weight, the sign of this definition may be reversed, or another definition may be used. Using this weight by setting its weight for each state transition. The score for obtaining the maximum likelihood node can be calculated.

また、本発明の一態様は、上記の音声認識誤り修正装置において、前記原稿探索部は、前記チャンクごとに前記誤りスコアを算出するとともに、前記チャンクごとの前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する前記出力遷移の出力シンボルを、前記確定出力とするものであり、且つ、前記原稿探索部は、前記チャンクごとの前記誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する、ことを特徴とする。   According to another aspect of the present invention, in the speech recognition error correction apparatus, the document search unit calculates the error score for each chunk, and the degree of error is based on the error score for each chunk. If the output symbol of the output transition corresponding to the chunk is smaller than a predetermined threshold, the output symbol of the output transition is used as the definite output, and the document search unit calculates the error score for each chunk. An error score corresponding to a ratio of the state transition related to the error with respect to the chunk and a section of the chunk immediately before the chunk is calculated as an error score of the chunk.

また、本発明の一態様による音声認識誤り修正装置は、原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重み(遷移にかかるコスト)とを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部とノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、前記原稿探索部によって求められた前記確定出力を出力する出力部と、を具備する音声認識誤り修正装置であって、前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿探索部は、前記出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における前記最尤ノードとして決定する、ことを特徴とする。   The speech recognition error correction apparatus according to an aspect of the present invention is a finite state transducer that sequentially transitions while accepting words input as speech recognition results in response to a document text. Information on the state of the finite state transducer that makes a state transition while accepting an error in a word included in the recognition result, and a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight ( A finite state transducer information storage unit that stores information including the cost of transition), a node data storage unit that stores a score representing the likelihood of the state in the finite state transducer, and the original text The input of the recognition word which is the recognition result of the corresponding voice is accepted from the outside, and the received A node data update unit that calculates a score at the corresponding time for each state in the finite state transducer according to a sense word, updates the node data storage unit using the calculated score, and starts processing. When receiving the activation signal shown from the outside, by referring to the node data storage unit, to determine the maximum likelihood node at that time, with reference to the finite state transducer information storage unit and the node data storage unit, By tracing back the state transition to the maximum likelihood node, traceback processing is performed until a predetermined time when the state transition has been confirmed, and the path of the state transition subjected to the traceback processing is set as an output candidate and becomes an output candidate. For the path, an error score is calculated according to the ratio of the state transition related to the error to the path. When the degree of error is smaller than a predetermined threshold based on the calculated error score, a document search unit that determines the output candidate of the path as a definite output and the definite output obtained by the document search unit are output The finite state transducer information storage unit includes an output transition in which the output symbol is a non-empty state transition as a part of the state transition. The document search unit is characterized in that the node having the maximum likelihood among the nodes corresponding to the transition source state of the output transition is determined as the maximum likelihood node at that time.

この特徴を有する音声認識誤り修正装置は、出力遷移の遷移元状態であるノードの中だけから最尤ノードを決定する。これにより、音声認識誤り修正装置は、より少ない計算量で処理を行うことができるとともに、対応する原稿の誤り度合いが既入力の認識結果だけで閾値を超える場合に早期に出力を確定できる。つまり、音声認識誤り修正装置は、迅速に、出力の決定に至る処理を行うことができる。   The speech recognition error correcting apparatus having this feature determines the maximum likelihood node only from the nodes that are the transition source states of the output transition. As a result, the speech recognition error correction apparatus can perform processing with a smaller amount of calculation, and can determine the output at an early stage when the error level of the corresponding document exceeds the threshold value only with the already input recognition result. That is, the speech recognition error correction apparatus can quickly perform processing that leads to the determination of output.

本発明によれば、複雑な構成のシステムを必要とせず、音声認識結果の誤りを修正することができる。
また、本発明によれば、従来技術を用いたときにブロック境界に起因して生じていた自動修正誤りの発生を低減することができる。
また、本発明によれば、修正後の認識結果を早く確定させて出力することが可能となる。
According to the present invention, an error in a speech recognition result can be corrected without requiring a system having a complicated configuration.
Furthermore, according to the present invention, it is possible to reduce the occurrence of automatic correction errors that have occurred due to block boundaries when using the prior art.
Further, according to the present invention, it is possible to quickly determine and output a corrected recognition result.

本発明の実施形態による音声認識誤り修正装置を含むシステムの構成の概略を示すブロック図である。It is a block diagram which shows the outline of a structure of the system containing the speech recognition error correction apparatus by embodiment of this invention. WFST(重み付き有限状態トランスデューサー)の例を示す状態遷移図である。It is a state transition diagram showing an example of WFST (weighted finite state transducer). 本実施形態において用いるための特徴を備えたWFSTの例を示す状態遷移図である。It is a state transition diagram which shows the example of WFST provided with the characteristic for using in this embodiment. 同実施形態による音声認識誤り修正装置の概略機能構成を示す機能ブロック図である。It is a functional block diagram which shows schematic function structure of the speech recognition error correction apparatus by the embodiment. 同実施形態による音声認識誤り修正装置による処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process by the speech recognition error correction apparatus by the embodiment. 同実施形態による字幕文出力の確定方法の実例を示す概略図である。It is the schematic which shows the example of the determination method of a caption text output by the embodiment.

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態は、音声認識結果などの誤りの混入が不可避な単語列と、その単語列の情報源となった原稿などの対応を早期に確定する技術を用いる。これにより、音声認識結果に含まれる誤りを自動修正する。   Next, an embodiment of the present invention will be described with reference to the drawings. In the present embodiment, a technique is used in which the correspondence between a word string that is inevitably mixed with an error such as a speech recognition result and a document that is an information source of the word string is determined early. Thereby, the error included in the speech recognition result is automatically corrected.

[1.本実施形態を適用したシステムの構成]
図1は、本実施形態に係る音声認識誤り修正装置を含むシステムの構成の概略を示すブロック図である。図示するように、当該システムは、音声認識誤り修正装置100と、原稿テキスト記憶装置200と、音声認識装置220と、トランスデューサー構築装置240とを含んで構成される。
[1. System configuration to which this embodiment is applied]
FIG. 1 is a block diagram showing an outline of a system configuration including a speech recognition error correction apparatus according to the present embodiment. As shown in the figure, the system includes a speech recognition error correction device 100, a document text storage device 200, a speech recognition device 220, and a transducer construction device 240.

同図に示すシステムは、放送局におけるニュース番組に音声認識を用いて字幕を付与する場合に適用するための音声認識誤り修正装置100を含む。このような番組における発話音声は、概ね事前に用意された原稿テキストに基づいているという特徴がある。ところで、大規模なキー放送局では、字幕を放送するために、音声認識結果に含まれる認識誤りを人手で修正するためのオペレーターを配置している場合がある。一方で、地方放送局では、様々な事情によりそのようなオペレーターを配置することが難しいことが多い。本実施形態によれば、そのような地方放送局においても、オペレーターを配置することなく、音声認識謝りの修正を行うことができるようになる。   The system shown in FIG. 1 includes a speech recognition error correction apparatus 100 that is applied when subtitles are added to a news program at a broadcasting station using speech recognition. The utterance voice in such a program is characterized in that it is generally based on a manuscript text prepared in advance. By the way, in a large-scale key broadcasting station, there is a case where an operator for manually correcting a recognition error included in a speech recognition result is arranged in order to broadcast subtitles. On the other hand, local broadcasters often find it difficult to locate such operators due to various circumstances. According to this embodiment, even in such a local broadcasting station, it becomes possible to correct the speech recognition apologization without arranging an operator.

音声認識誤り修正装置100は、音声認識装置220が出力する認識結果の単語列(認識単語列)を入力として受け付け、予め記憶した対応原稿の単語列を推定することで、認識単語列に含まれる誤りを修正するものである。
ここで、音声認識誤り修正装置100が推定処理のために予め記憶した情報は、原稿テキスト記憶装置200に記憶されている原稿テキストを予め読み込んで構築された対応原稿の集合である。この対応原稿の集合は、状態を表すノードと、ノード間の状態遷移を表す枝(アーク)とをネットワーク(有向グラフ)として有する重み付き有限状態トランスデューサー(Weighted Finite State Transducer:以下、「WFST」、または単に「有限状態トランスデューサー」という)で表される。
音声認識誤り修正装置100は、WFSTのネットワーク上で最良(最尤)仮説を逐次調べ、WFST上の対応原稿の単語列と認識単語列との編集距離を基準に、全ての認識結果の単語列の入力を待たずに最終最良仮説を近似して部分的に修正結果を逐次確定する。
The speech recognition error correction apparatus 100 receives a recognition result word string (recognition word string) output from the speech recognition apparatus 220 as an input, and estimates a word string of a corresponding document stored in advance, thereby being included in the recognition word string. It corrects errors.
Here, the information stored in advance for the estimation process by the speech recognition error correction apparatus 100 is a set of corresponding originals constructed by reading the original text stored in the original text storage device 200 in advance. This set of corresponding manuscripts includes a weighted finite state transducer (hereinafter referred to as “WFST”) having nodes representing states and branches (arcs) representing state transitions between the nodes as a network (directed graph). Or simply "finite state transducer").
The speech recognition error correction apparatus 100 sequentially checks the best (maximum likelihood) hypothesis on the WFST network, and based on the edit distance between the word string of the corresponding manuscript on the WFST and the recognized word string, the word strings of all recognition results. Without waiting for input, the final best hypothesis is approximated and the correction results are partially determined sequentially.

音声認識誤り修正装置100は、音声認識装置220から認識結果の単語が入力されるのに対応して、WFSTを用いて、入力単語を受理可能な遷移を求めてそのスコアを計算し、累積スコアに対する閾値を用いて枝刈りを行いながら、ビタビアルゴリズム(Viterbi Algorithm)による探索(ビタビ探索)を用いる。なお、ビタビアルゴリズムは、既存の技術であり、受信系列に対して送信符号に最も近い符号系列、即ち最大尤度の符号系列を推定する際に、トレリス線図を用いた探索を行う、効果的な方法である。   In response to the recognition result word being input from the speech recognition device 220, the speech recognition error correction device 100 uses WFST to obtain a transition that can accept the input word, calculates its score, and accumulates the score. A search (Viterbi search) using a Viterbi algorithm is used while pruning using a threshold for. The Viterbi algorithm is an existing technique, and is effective in performing a search using a trellis diagram when estimating a code sequence closest to a transmission code with respect to a received sequence, that is, a code sequence having the maximum likelihood. It is a simple method.

通常のビタビ探索では、全ての入力が観測されてから、最もスコアが良くなるパスをトレースバックして最良仮説を出力する。そのため、通常の探索方法では、全ての入力が観測され終わる前に、古い入力から順に逐次修正結果を出力するといったことはできない。例えば、テレビ放送番組の放送音声を認識した結果から字幕を制作してリアルタイムでテレビ画面の画像に重畳する場合を想定すると、通常のビタビ探索による最尤系列は番組の最後まで単語を入力しないと確定することができない。これでは番組が終了してしまうことになるので、このような運用に対して通常のビタビ探索は不適である。   In normal Viterbi search, after all the inputs are observed, the path with the best score is traced back and the best hypothesis is output. Therefore, in the normal search method, it is not possible to output the correction results sequentially from the oldest input before all the inputs are observed. For example, assuming that the subtitles are produced from the result of recognizing the broadcast sound of a TV broadcast program and superimposed on the image of the TV screen in real time, the maximum likelihood sequence by the normal Viterbi search must input words until the end of the program It cannot be confirmed. This will end the program, so normal Viterbi search is not suitable for such operations.

一方、本実施形態による音声認識誤り修正装置100は、ビタビ探索を用いつつも、適時に、最尤系列を逐次近似してトレースバックする。すなわち、予め定められた処理開始条件が満たされる度に、その時点で最もスコアが良くなるパスをトレースバックして、確定できる出力遷移を決定するので、修正結果を逐次出力することができる。ここでトレースバックされるパスは、最良仮説の近似であるが、各出力遷移に対応する入力単語列と、原稿の単語列との編集距離を信頼度の基準にして同パスを確定するか否かを決定して近似精度の向上をはかる。なお、その詳細については後で説明する。   On the other hand, the speech recognition error correction apparatus 100 according to the present embodiment sequentially approximates the maximum likelihood sequence and traces back in a timely manner while using the Viterbi search. That is, every time a predetermined processing start condition is satisfied, a path with the best score at that time is traced back and an output transition that can be determined is determined, so that correction results can be output sequentially. The path traced back here is an approximation of the best hypothesis, but whether or not the path is determined based on the reliability of the edit distance between the input word string corresponding to each output transition and the word string of the manuscript. To improve the approximation accuracy. Details thereof will be described later.

原稿テキスト記憶装置200は、原稿テキストのデータを記憶する。原稿テキストは、複数の記事を含む。各記事は、複数の文を含む。
原稿テキスト記憶装置200は、人が話す予定の内容をテキストに書き起こしたものの全体を記憶する。原稿テキスト記憶装置200は、例えば文、文章、段落といった単語列の区切りの単位や、そのテーマやトピック等の内容分類に応じて、多数の細分化された個別の内容を表すテキストを記憶する。このような個別の内容を、以下では単に原稿と呼ぶ。また、単語列の単位は一例として文である。
原稿テキスト記憶装置200は、例えばハードディスク装置や半導体メモリ等の一般的な記憶手段を用いて構築されている。原稿テキスト記憶装置200は、いわゆるクラウドサービスとして、通信ネットワーク等を通してアクセスされるものであっても良い。
The document text storage device 200 stores document text data. The manuscript text includes a plurality of articles. Each article includes a plurality of sentences.
The manuscript text storage device 200 stores the entire transcript of what the person plans to speak. The manuscript text storage device 200 stores, for example, texts representing a number of subdivided individual contents according to word string delimiter units such as sentences, sentences, paragraphs, and content classifications such as themes and topics. Such individual contents are hereinafter simply referred to as a manuscript. The unit of the word string is a sentence as an example.
The document text storage device 200 is constructed by using a general storage means such as a hard disk device or a semiconductor memory. The document text storage device 200 may be accessed through a communication network or the like as a so-called cloud service.

音声認識装置220は、原稿テキスト記憶装置200に含まれる原稿201を人(アナウンサー等)が読み上げた発話音声を認識し、認識結果の単語列を出力する。
音声認識装置220は、生の音声データが入力された場合に、隠れマルコフモデル(HMM)による音響モデルと、言語モデルとを利用して、音声データを認識し、その認識した結果を認識単語列として生成するものである。本実施形態において、音声認識装置220は、特に限定されず、公知の技術を用いたものを採用することができる。
The speech recognition device 220 recognizes a speech voice read by a person (an announcer or the like) from the document 201 included in the document text storage device 200, and outputs a word string as a recognition result.
When raw speech data is input, the speech recognition device 220 recognizes speech data using an acoustic model based on a hidden Markov model (HMM) and a language model, and recognizes the recognized result as a recognition word string. Is generated as In the present embodiment, the voice recognition device 220 is not particularly limited, and a device using a known technique can be employed.

なお、後述するように、放送におけるニュース番組では、各ニュース項目に対して複数のバージョンの原稿が入稿されており、どのバージョンをどの順番で放送するのかは事前に確定できない。そのような状況で、音声認識装置220は、音声認識を行い、その発話音声に対して、そもそも、対応する原稿が存在するのか否かを即座に調べることが求められる。そのため、音声認識に用いる言語モデルは、高精度に音声認識結果と原稿との対応をとるために、原稿テキスト記憶装置200に記憶されているテキストデータを用いて予め適応化しておき、原稿通りに読み上げた場合の認識精度が高くなるようにしておくことが好ましい。   As will be described later, in a broadcast news program, a plurality of versions of a manuscript are submitted for each news item, and it is not possible to determine in advance which version will be broadcast in which order. In such a situation, the voice recognition device 220 is required to perform voice recognition and immediately check whether or not a corresponding document exists for the uttered voice. For this reason, the language model used for speech recognition is preliminarily adapted using text data stored in the document text storage device 200 in order to make correspondence between the speech recognition result and the document with high accuracy, and according to the document. It is preferable that the recognition accuracy when reading is increased.

トランスデューサー構築装置240は、音声認識誤り修正装置100で利用する対応原稿の集合(対応原稿集合)としてWFSTを構築するものである。トランスデューサー構築装置240は、音声認識の対象となる読み上げ原稿、つまり、原稿テキスト記憶装置200に含まれる原稿文から、音声認識誤り修正装置100で利用するためのWFSTを事前に構築する。WFSTは、入力シンボルと出力シンボル、遷移重みを有する有限状態機械であり、単語と文などの異なる粒度の入出力を効率よく扱うことができる。このWFSTの構築については後で説明する。   The transducer construction device 240 constructs a WFST as a collection of corresponding originals (corresponding original collection) used in the speech recognition error correction apparatus 100. The transducer construction device 240 constructs in advance a WFST to be used by the speech recognition error correction device 100 from a read-out original to be speech-recognized, that is, a document sentence included in the document text storage device 200. WFST is a finite state machine having input symbols, output symbols, and transition weights, and can efficiently handle input / output of different granularities such as words and sentences. The construction of this WFST will be described later.

トランスデューサー構築装置240は、図示するように、単語ネットワーク登録部241と、編集ネットワーク登録部242とを含んで構成される。   The transducer construction device 240 includes a word network registration unit 241 and an editing network registration unit 242 as shown in the figure.

単語ネットワーク登録部241は、原稿テキスト記憶装置200に含まれる原稿テキストを読み出し、予め定められた所定単位(例えば文単位)ごとに、以下に述べる一連の処理を行う。即ち、単語ネットワーク登録部241は、WFSTのネットワークの始点ノードから開始して、原稿テキスト記憶装置200から原稿テキストに含まれる単語を読み込む度に、その単語を受理するための状態遷移(入力遷移)の枝と新たなノードとを作成する。単語ネットワーク登録部241は、原稿内の所定単位(例えば文単位)の最後に至るまで、順次、読み込んだ各単語について上記の枝とノードの作成を行う。
そして、WFSTのネットワークにおいて、読み込んだ単語列の出力遷移の枝を追加して終点ノードに連結する。
The word network registration unit 241 reads the document text included in the document text storage device 200 and performs a series of processes described below for each predetermined unit (for example, sentence unit). That is, the word network registration unit 241 starts from the start point node of the WFST network, and each time a word included in the document text is read from the document text storage device 200, a state transition (input transition) for accepting the word is received. Create a branch and a new node. The word network registration unit 241 sequentially creates the above branches and nodes for each read word until the end of a predetermined unit (for example, sentence unit) in the document.
Then, in the WFST network, an output transition branch of the read word string is added and connected to the end node.

編集ネットワーク登録部242は、単語ネットワーク登録部241で作成されたWFSTのネットワークのノード間に、単語の置換に対応して任意の単語を受理する状態遷移を表す枝と、単語の挿入に対応して任意の単語を受理する状態遷移を表す枝と、単語の削除に対応して入力が無くても出力側に遷移する状態遷移を表す枝とを追加するものである。   The editing network registration unit 242 corresponds to a branch representing a state transition that accepts an arbitrary word corresponding to a word replacement and a word insertion between nodes of the WFST network created by the word network registration unit 241. Thus, a branch representing a state transition that accepts an arbitrary word and a branch representing a state transition that transitions to the output side even if there is no input in response to the deletion of the word are added.

なお、本実施形態では、システムは、例えば下記の(A1)〜(A7)の条件下で動作する。
(A1)原稿テキスト記憶装置200に記憶されている原稿文のうちの複数の原稿文が音声認識対象として読みあげられる。
(A2)1つのニュース項目に対するニュース原稿も、いくつかの更新された版(バージョン)が用意されていて、どのバージョンの原稿が何時のニュース番組で読まれるのかを事前に確定することはできない。
(A3)複数の原稿文がどのような順番で読まれるのか事前には分かっていない。
(A4)原稿テキスト記憶装置200に含まれる原稿文の中には、読みあげられずにスキップされるものもある。
(A5)読む人(アナウンサー、キャスター、記者等)によっては、元の原稿をそのまま忠実に読むのではなく、視聴者への伝わりやすさ等を考慮して敢えて言い回しを変えてしまう場合や、読み誤りが生じる場合などがある。
(A6)音声認識装置220の認識誤りに起因する意昧不明な字幕を送出して視聴者に誤解を与えたり不快にさせたりすることを回避することを優先課題としたい。そのため、意味不明な認識結果の場合には送出せず、代わりに、事前に編集者により校正され内容が確認されている、発話内容に最も近いと自動推定された原稿(事前原稿)を字幕として送出する。
(A7)インタビュー部分などであって認識結果に対応する原稿が元々存在しない場合、自動推定は不可能なので、元原稿が無いインタビュー部分などについては字幕を送出しない。
In the present embodiment, the system operates under the following conditions (A1) to (A7), for example.
(A1) A plurality of document sentences among the document sentences stored in the document text storage device 200 are read out as speech recognition targets.
(A2) A number of updated versions (versions) are also prepared for a news manuscript for one news item, and it is impossible to determine in advance which version of the manuscript will be read in the news program.
(A3) The order in which a plurality of manuscript sentences are read is not known in advance.
(A4) Some document texts included in the document text storage device 200 are skipped without being read out.
(A5) Some readers (announcers, casters, reporters, etc.) do not read the original manuscript faithfully, but may change the wording in consideration of ease of transmission to the viewer, An error may occur.
(A6) We want to make it a priority to avoid sending unclear subtitles due to recognition errors of the speech recognition device 220 to mislead or make viewers uncomfortable. Therefore, it is not sent in the case of an unknown recognition result, and instead, the subtitle is a manuscript (prior manuscript) that is automatically estimated to be the closest to the utterance content that has been proofread by the editor and confirmed in advance. Send it out.
(A7) If there is no original corresponding to the recognition result in an interview part or the like, automatic estimation is impossible, so no subtitles are transmitted for an interview part without an original.

[2.一般的なWFSTの例]
図2は、一般的なWFSTの例を示す概略図である。WFSTは、状態遷移の定義として表現される。状態遷移は、状態を表すノードと、状態遷移を表す枝と、を有する。なお、状態遷移のことを単に遷移という場合もある。図示するWFSTでは、入力シンボルを単語、出力シンボルを所定の単語列とする。また、この所定の単語列は、文である。同図において、ノードは楕円形で示している。また、枝は矢印付きの線で表している。つまり、枝は、方向を有している。
[2. General WFST example]
FIG. 2 is a schematic diagram showing an example of a general WFST. WFST is expressed as a definition of state transition. The state transition has a node representing the state and a branch representing the state transition. Note that state transition may be simply referred to as transition. In the illustrated WFST, an input symbol is a word and an output symbol is a predetermined word string. The predetermined word string is a sentence. In the figure, the nodes are indicated by ellipses. Further, the branches are represented by lines with arrows. That is, the branch has a direction.

同図では、楕円形の各ノードに、ノードを識別するための3桁の数字を付している。始点ノードはノード001であり、終点ノードはノード008である。この例では、始点と終点との間には、ノード002〜ノード007が直線状に並べられている。また、始点と終点との間には、上記のノード002〜ノード007の系列とは並列に、ノード010〜ノード015が直線状に並べられている。さらに、始点と終点との間には、上記のノード002〜ノード007の系列およびノード010〜ノード015の系列とは並列に、ノード018〜ノード023が直線状に並べられている。また、状態遷移を表す枝は、単語または<S>、<I>、<D>、<Emi1>、<Emi2>、<Emi3>、<eps>といった記号が付されている。また、状態遷移を表す枝は、遷移元のノードから遷移先のノードに向かって伸びている。   In the figure, each ellipse node is given a three-digit number for identifying the node. The start point node is node 001, and the end point node is node 008. In this example, nodes 002 to 007 are arranged in a straight line between the start point and the end point. Further, between the start point and the end point, the nodes 010 to 015 are arranged in a straight line in parallel with the above-described series of nodes 002 to 007. Furthermore, between the start point and the end point, the above-described series of nodes 002 to 007 and the series of nodes 010 to 015 are arranged in a straight line with nodes 018 to 023. Further, a branch representing a state transition is given a word or a symbol such as <S>, <I>, <D>, <Emi1>, <Emi2>, <Emi3>, <eps>. Further, the branch representing the state transition extends from the transition source node to the transition destination node.

図示する状態遷移について一般化して説明すると、このWFSTにおいては、各遷移に、(S/S:ω)のパラメーターが設定されている。ここで、Sは、その状態遷移が受理する単語入力を表す。また、Sは、その状態遷移が出力する単語列を表す。出力される単語列は、文または文の一部である。また、ωは状態遷移重みを表す。つまり、各遷移には、3つ組のパラメーターが設定されている。なお、図2では、便宜上、状態遷移が有するパラメーターのすべてを示しているわけではなく、各状態遷移に対応して、3つ組のパラメーターのうちのSまたはSのいずれかのみを示している。 The state transition shown in the figure is generalized and described. In this WFST, a parameter (S i / S o : ω) is set for each transition. Here, S i represents a word input accepted by the state transition. S o represents a word string output by the state transition. The output word string is a sentence or a part of a sentence. Ω represents a state transition weight. That is, a triple parameter is set for each transition. In FIG. 2, for the sake of convenience, not all the parameters of the state transition are shown, but only one of the three parameters, Si or So , is shown corresponding to each state transition. ing.

ここで、同図上に記載された単語を一般化して単語sと表記する。なお、アルファベットの大文字と小文字とを区別している。同図において、単語sは、原稿の単語列が含んでいる単語である。ある状態遷移に単語sが付加されているとき、当該状態遷移はその単語sが入力されたときにのみ起こることを表している。つまり、ある状態において、その状態を遷移元とする状態遷移に単語sが付されているとき、認識単語列の中の単語として単語sが入力された場合にのみその状態遷移が起こる。つまり、単語sが記載された状態遷移は、音声認識された単語sを受理して進む遷移である。なお、状態遷移が起こるとその遷移先の状態が次の状態となる。   Here, the word described in the figure is generalized and expressed as a word s. Note that uppercase and lowercase letters are distinguished. In the figure, a word s is a word included in the word string of the document. When a word s is added to a certain state transition, it indicates that the state transition occurs only when the word s is input. That is, in a certain state, when the word s is added to the state transition having the state as a transition source, the state transition occurs only when the word s is input as a word in the recognized word string. That is, the state transition in which the word s is described is a transition that proceeds by accepting the speech-recognized word s. When a state transition occurs, the transition destination state becomes the next state.

図示する状態遷移において、ノード002〜ノード007の系列は、「先月/の/関東甲信/地方/は/・・・」という単語列に対応する。但し、ここで、スラッシュ「/」は単語の区切りである。また、ノード010〜ノード015の系列は、「今週/も/まとまった/雨/は/・・・」という単語列に対応する。また、ノード018〜ノード023の系列は、「気象庁/に/より/ます/と/・・・」という単語列に対応する。このように、ここで構築するWFSTは、全ての原稿文を自由に接続できるネットワークである。   In the state transition shown in the figure, the sequence of the nodes 002 to 007 corresponds to the word string “Last month /// Kanto Koshin / local / ha /. Here, the slash “/” is a word break. The series of nodes 010 to 015 corresponds to the word string “This week / Moon / Matched / Rain / Ha /. The series of nodes 018 to 023 corresponds to the word string “Meteorological Agency / Nii / Yori / Masu / To / ...”. As described above, the WFST constructed here is a network that can freely connect all document texts.

同図において、単語sが記載された遷移についてのパラメーターは、(s/ε:0.0)で表される。つまり、この3つ組のパラメーターは、単語sを入力として受理し、出力がないことを表す。εは、単語がないことを表す記号である。つまり、出力他の語列が空である。また、3つ組のパラメーターは、遷移重みの値が0.0であることを表す。重みの値の設定方法はさまざまであるが、一例としては、ペナルティがない場合に遷移重みの値として0.0を用い、負の値の重みをペナルティとして用いることができる。状態遷移の定義に基づいて例えば現状態を推定する場合に、この遷移重みの値の所定の系列における総計をスコアとして用いることができる。一例として、同図において単語「先月」が付された状態遷移は、3つ組のパラメーターとしては、(先月/ε:0.0)で表される。   In the figure, the parameter for the transition in which the word s is described is represented by (s / ε: 0.0). That is, this triplet parameter accepts the word s as input and represents no output. ε is a symbol indicating that there is no word. That is, the output other word strings are empty. The triple parameter represents that the transition weight value is 0.0. There are various methods for setting the weight value. For example, when there is no penalty, 0.0 can be used as the transition weight value, and a negative weight can be used as the penalty. For example, when the current state is estimated based on the definition of the state transition, the total of the transition weight values in a predetermined series can be used as a score. As an example, the state transition to which the word “last month” is attached in the same figure is represented by (last month / ε: 0.0) as a triple parameter.

同図において、<S>が付された状態遷移は、置換単語を受理するための遷移である。つまり、原稿の単語列が含んでいるある単語sの位置に対応する認識単語列の位置に入力した単語が、原稿のある単語sとは異なる任意の単語に置換されていたときに、その置換単語を受理するための遷移である。以下、原稿の単語列が含んでいるある単語sの位置において、この単語sとは異なる任意の単語のことを、任意の単語*と表記する。アスタリスクは、ワイルドカードを表す表記である。この置換には、例えば「再開」が同音異義語の「再会」に翻字されて認識された場合も含まれる。   In the figure, a state transition with <S> is a transition for accepting a replacement word. That is, when the word input at the position of the recognized word string corresponding to the position of a certain word s included in the document word string is replaced with an arbitrary word different from the word s on the document, the replacement is performed. A transition for accepting a word. Hereinafter, an arbitrary word different from the word s at the position of a certain word s included in the word string of the document is referred to as an arbitrary word *. The asterisk is a notation representing a wild card. This replacement includes, for example, a case where “restart” is recognized as a transliteration of the homonym “reunion”.

同図において、<S>が付された状態遷移は、任意の単語*を受理可能である。この<S>が記載された遷移についてのパラメーターは(*/ε:ωs)で表される。この3つ組表現においては、*は同遷移が受理できる任意の単語入力を表し、εはこの遷移で出力は無いことを意昧する。また、ωsは遷移重みの1つであって、この遷移に対して単語sとは異なる任意の単語*が入力されたときに課すペナルティ(以下、置換ペナルティという)を意味する。この置換ペナルティωsは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、<S>が付された状態遷移は、3つ組のパラメーターとしては、 (*/ε:−1.0)と表すことができる。 In the figure, a state transition with <S> can accept any word *. The parameter for the transition in which <S> is described is represented by (* / ε: ω s ). In this triplet representation, * represents any word input that the transition can accept, and ε means there is no output at this transition. Further, ω s is one of transition weights, and means a penalty imposed on the transition when an arbitrary word * different from the word s is input (hereinafter referred to as a replacement penalty). This replacement penalty ω s is expressed by a numerical value that lowers the node score, and for example, −1.0 is used. For example, a state transition with <S> can be expressed as (* / ε: -1.0) as a triple parameter.

同図において、<I>が付された状態遷移は、挿入単語を受理するための遷移である。つまり、発話者に起因するなどして、発話内容に情報の追加や言いよどみによる分節などの繰り返しがあった場合、原稿どおり又は置換されたと認識された単語列に続く位置に挿入された単語を受理するための遷移である。また、音声認識装置220に起因して、原稿通りならば1単語と認識すべきところを、複数単語として認識するような認識誤りで生じて、原稿通りの1単語に続く位置に挿入された単語を受理するためにも、<I>が付された状態遷移を用いることができる。   In the figure, a state transition with <I> is a transition for accepting an insertion word. In other words, if there is a repetition of information addition or segmentation due to utterance due to the speaker, etc., the word inserted at the position following the word string recognized as the original or replaced is accepted. It is a transition to do. In addition, due to the voice recognition device 220, a word inserted in a position following the one word as the manuscript is caused by a recognition error that recognizes a word that should be recognized as the manuscript as a plurality of words if it is as the manuscript. Can also be used for state transitions marked with <I>.

同図において、<I>が付された状態遷移は、任意の単語*を受理可能である。この<I>が記載された遷移についてのパラメーターは、3つ組による表現で、(*/ε:ωi)で表される。ここで、*は任意の単語入力を表し、εは空の単語を表す。つまり、この状態遷移は、任意の単語を受理し、出力単語を持たない。また、ωiは遷移重みの1つであって、この遷移に対して任意の単語*が入力されたときに課すペナルティ(以下、挿入ペナルティという)を意味する。この挿入ペナルティωiは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、<I>が付された状態遷移は、3つ組のパラメーターで表すと、(*/ε:−1.0)である。
なお、<I>が付された状態遷移における遷移先の状態は、同遷移における遷移元の状態と同じである。
In the figure, the state transition with <I> can accept any word *. The parameter for the transition in which <I> is described is expressed by a triplet (* / ε: ω i ). Here, * represents an arbitrary word input, and ε represents an empty word. That is, this state transition accepts an arbitrary word and has no output word. Further, ω i is one of transition weights, and means a penalty imposed when an arbitrary word * is input for this transition (hereinafter referred to as an insertion penalty). This insertion penalty ω i is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, a state transition marked with <I> is (* / ε: −1.0) in terms of a triple parameter.
It should be noted that the transition destination state in the state transition with <I> is the same as the transition source state in the transition.

同図において、<D>が付された状態遷移は、脱落単語を受理するための遷移である。つまり、発話者に起因するなどして、発話内容の一部に句などの脱落があった場合、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。また、音声認識装置220に起因して、原稿通りならば複数単語と認識すべきところを、単語が削除されて1単語として認識するような認識誤りで生じて、認識単語列において原稿から脱落した単語の位置を特定するための遷移である。   In the figure, a state transition with <D> is a transition for accepting a dropped word. That is, this is a transition for specifying the position of a word dropped from the original in the recognized word string when a phrase or the like is dropped in a part of the utterance content due to the speaker. In addition, due to the voice recognition device 220, a word that should be recognized as a plurality of words according to the original is caused by a recognition error in which the word is deleted and recognized as one word, and is dropped from the original in the recognized word string. It is a transition for specifying the position of a word.

同図において、<D>が付された状態遷移は、単語の入力が無くても起こり得る遷移である。この<D>が記載された遷移についての3つ組のパラメーターは、(ε/ε:ωd)で表される。ここで、スラッシュの前のεは、この遷移で受理する入力が無いことを表す。また、スラッシュの後のεは、この遷移で出力が無いことを意昧する。また、ωdは遷移重みの1つであって、この遷移で単語が脱落したときに課すペナルティ(以下、脱落ペナルティという)を意味する。この脱落ペナルティωdは、ノードスコアを下げる数値で表され、例えば−1.0を用いる。例えば、図2で<D>が記載された遷移は、3つ組のパラメーターで表すと、(ε/ε:−1.0)である。
なお、<D>が付された状態遷移における遷移元および遷移先の状態は、脱落する単語に関する状態遷移と同じである。例えば、ノード002からノード003への、<D>が付された状態遷移は、並列する単語「の」が脱落したときにもノード002からノード003へ遷移を可能とする(ただし、上記の脱落ペナルティを伴う)ものである。
In the figure, a state transition with <D> is a transition that can occur even if no word is input. The triple parameter for the transition in which <D> is described is represented by (ε / ε: ω d ). Here, ε before the slash indicates that there is no input accepted in this transition. Also, ε after the slash means that there is no output at this transition. Further, ω d is one of transition weights, and means a penalty imposed when a word is dropped in this transition (hereinafter referred to as a drop penalty). This dropout penalty ω d is represented by a numerical value that lowers the node score, and for example, −1.0 is used. For example, the transition in which <D> is described in FIG. 2 is (ε / ε: −1.0) in terms of a triple parameter.
It should be noted that the transition source and transition destination states in the state transitions marked with <D> are the same as the state transitions relating to the dropped words. For example, the state transition with <D> from the node 002 to the node 003 enables the transition from the node 002 to the node 003 even when the parallel word “no” is omitted (however, the above-described dropping) With a penalty).

同図において、<Emi1>や<Emi2>や<Emi3>が付された状態遷移は、所定の単語列として文を出力するための遷移である。ここで出力される文が、音声認識処理によって認識された単語列の修正結果である。これらの<Emi1>や<Emi2>や<Emi3>が付された遷移についてのパラメーターは(ε/L:0.0)で表される。ここで、εはこの遷移において単語の入力が無いことを表す。また、Lはこの遷移で出力される単語列(文)がLであることを表す。   In the figure, the state transitions to which <Emi1>, <Emi2>, and <Emi3> are attached are transitions for outputting a sentence as a predetermined word string. The sentence output here is the correction result of the word string recognized by the speech recognition process. The parameter for the transition to which <Emi1>, <Emi2>, and <Emi3> are attached is represented by (ε / L: 0.0). Here, ε represents that no word is input in this transition. L indicates that the word string (sentence) output in this transition is L.

例えば、<Emi1>が付された状態遷移は、3つ組のパラメーターで表すと、(ε/先月の関東甲信地方は…:0.0)である。つまり、この場合、Lは、始点ノード001からノード002を経由してノード007に至る各遷移に並べられた単語列「先月/の/関東甲信/地方/は/…」をすべて順番に(直列に)繋げた単語列である。なお、パラメーターにおける0.0は遷移重みの1つであって、この遷移に対して文を出力するときには、ペナルティが課されないことを意味する。なお、<Emi2>が付された状態遷移のパラメーターは、同様に、(ε/今週もまとまった雨は…:0.0)である。また、なお、<Emi3>が付された状態遷移のパラメーターは、同様に、(ε/気象庁によりますと…:0.0)である。   For example, a state transition to which <Emi1> is attached is represented by three parameters (ε / Last Kanto Koshin region ...: 0.0). In other words, in this case, L is in order (in series) all the word strings “last month /// Kanto Koshin / local / ha / ...” arranged in each transition from the start node 001 to the node 007 via the node 002. N) Connected word strings. Note that 0.0 in the parameter is one of transition weights, and means that no penalty is imposed when a sentence is output for this transition. Similarly, the parameter of the state transition to which <Emi2> is attached is (ε / rains gathered in this week ...: 0.0). In addition, the parameter of the state transition to which <Emi3> is attached is similarly (ε / 0.0 by the JMA).

同図において、<eps>が記載された遷移は、終点ノードと始点ノードを連結する遷移であり、イプシロン遷移(ε遷移)と呼ばれている。<eps>が付された状態遷移は、原稿テキスト集合に含まれる所定の単語列(文)が、連続して発話されるという拘束を与える遷移である。<eps>が付された状態遷移についてのパラメーターは(ε/ε:ωu)で表される。ここで、スラッシュの前のεは、この遷移で単語の入力が無いことを表す。また、スラッシュの後のεは、この遷移で出力が無いことを表す。また、ωuは遷移重みの1つであって、適切な重み(数値)を与えることにより、WFSTは、より長く一致する文のスコアを高くすることができるようになる。 In the figure, a transition in which <eps> is described is a transition connecting an end point node and a start point node, and is called an epsilon transition (ε transition). The state transition with <eps> is a transition that gives a constraint that a predetermined word string (sentence) included in the document text set is continuously spoken. The parameter for the state transition with <eps> is expressed by (ε / ε: ω u ). Here, ε before the slash indicates that no word is input in this transition. In addition, ε after the slash indicates that there is no output in this transition. Also, ω u is one of transition weights, and by giving an appropriate weight (numerical value), the WFST can increase the score of sentences that match longer.

[3.本実施形態におけるWFST]
図3は、本実施形態において用いるWFSTの例を示す概略図である。図2を用いて説明した一般的なWFSTと、本実施形態で用いるWFSTの違いを中心に、以下、説明する。
[3. WFST in this embodiment]
FIG. 3 is a schematic diagram showing an example of WFST used in the present embodiment. The following description will focus on the difference between the general WFST described with reference to FIG. 2 and the WFST used in the present embodiment.

図3に示すWFSTもまた、ノード(状態)と枝(状態遷移)から成る状態遷移図で表される。同図では、ノードを黒丸または黒四角の記号で表し、枝を矢印付きの線で表す。各ノードには、ノードを識別するための3桁の整数を付している。同図に示す状態遷移図においても、始点のノード101と終点のノード108が存在する。そして、例示する状態遷移図においては、始点のノード101から終点のノード108へ、並列する2本の系列が存在する。その第1の系列は、始点のノード101から、ノード102〜ノード107を経て、終点のノード108に至る。また第2の系列は、始点のノード101から、ノード112〜ノード117を経て、終点のノード108に至る。これらの各系列が、原稿テキストにおける文に対応する。ここでは、簡単のために2文のみを示しているが、現実には文の数に制約はない。そして、終点ノード108から始点ノード101に戻るための枝(前述の、イプシロン遷移)が存在する。   The WFST shown in FIG. 3 is also represented by a state transition diagram composed of nodes (states) and branches (state transitions). In the figure, nodes are represented by black circles or black square symbols, and branches are represented by lines with arrows. Each node is given a three-digit integer for identifying the node. Also in the state transition diagram shown in the figure, there are a start node 101 and an end node 108. In the state transition diagram shown as an example, there are two sequences in parallel from the start node 101 to the end node 108. The first sequence extends from the node 101 at the start point to the node 108 at the end point via the nodes 102 to 107. Further, the second series reaches from the node 101 at the start point to the node 108 at the end point via the nodes 112 to 117. Each of these series corresponds to a sentence in the manuscript text. Here, only two sentences are shown for the sake of simplicity, but in reality there is no restriction on the number of sentences. There is a branch (the above-described epsilon transition) for returning from the end point node 108 to the start point node 101.

各々の状態遷移は、遷移元の状態と、遷移先の状態と、入力記号(単語)と、出力記号(単語列)と、遷移重みの値で定義される。一例として、同図において、ノード102からノード103への状態遷移は、受理する入力単語がWであり、出力する記号はε(つまり、出力単語はない)である。また別の例として、同図において、ノード114からノード115への状態遷移は、受理する記号がε(つまり受理する単語はない)であり、出力する記号はCという単語列である。 Each state transition is defined by a transition source state, a transition destination state, an input symbol (word), an output symbol (word string), and a transition weight value. As an example, in the figure, the state transition from node 102 to node 103, an input word to accept a is W 2, the symbol to be output is epsilon (i.e., the output word is not). As another example, in the figure, the state transition from node 114 to node 115 is the symbol for receiving the epsilon (i.e. no word to accept), symbols output from a word string of C 3.

なお、同図においては、状態遷移の重みの表示を省略している。また、同図においては、音声認識誤りを受理するための遷移を省略している。つまり、置換単語を受理するための状態遷移や、挿入単語を受理するための状態遷移や、脱落を許容するための状態遷移の表示を省略している。   In the figure, the display of the weight of state transition is omitted. Further, in the figure, a transition for accepting a speech recognition error is omitted. That is, the state transition for accepting a replacement word, the state transition for accepting an insertion word, and the state transition for allowing omission are omitted.

同図に示すWFSTの特徴は、原稿文をチャンク(chunk,かたまり)に分割し、チャンクの切れ目における状態遷移として出力遷移を配置した構成としている点である。なお、出力遷移とは、出力シンボルが空ではない状態遷移である。つまり、文の最後だけではなく、文の途中における状態遷移でも単語列を出力する場合がある。同図における具体例としては、原稿文(W,W,W,W,W)を、oとoという複数のチャンクに分割している。チャンクoは単語列(W,W,W)であり、チャンクoは単語列(W,W)である。そして、チャンクoとoとの間に、入力記号がε(つまり、入力単語がない)であり出力記号がCという出力遷移を設けている。なお、ノード107からノード108への状態遷移は、文末での出力遷移であり、その出力記号はCである。同様に、原稿文(W,W,W,W,W10)もまた、o(不図示)とo(不図示)という複数のチャンクに分割している。チャンクoは単語列(W,W,W)であり、チャンクoは単語列(W,W10)である。そして、チャンクoの後には、単語列Cを出力する出力遷移が設けられている。また、チャンクoの後には、単語列Cを出力する出力遷移が設けられている。 A feature of the WFST shown in the figure is that a document sentence is divided into chunks, and output transitions are arranged as state transitions at chunk breaks. The output transition is a state transition in which the output symbol is not empty. That is, the word string may be output not only at the end of the sentence but also at a state transition in the middle of the sentence. As a specific example in the figure, an original sentence (W 1 , W 2 , W 3 , W 4 , W 5 ) is divided into a plurality of chunks of o 1 and o 2 . Chunk o 1 is a word string (W 1 , W 2 , W 3 ), and chunk o 2 is a word string (W 4 , W 5 ). An output transition in which the input symbol is ε (that is, there is no input word) and the output symbol is C 1 is provided between the chunks o 1 and o 2 . The state transition from node 107 to node 108 is the output transitions at the end of the sentence, the output symbol is C 2. Similarly, the original text (W 6 , W 7 , W 8 , W 9 , W 10 ) is also divided into a plurality of chunks o 3 (not shown) and o 4 (not shown). Chunk o 3 is a word string (W 6 , W 7 , W 8 ), and chunk o 4 is a word string (W 9 , W 10 ). Then, after the chunk o 3 , an output transition for outputting the word string C 3 is provided. Further, after the chunk o 4 , an output transition for outputting the word string C 4 is provided.

上記のように、本実施形態では、文をチャンクに分割し、チャンクの終端に出力遷移を設けている。なお、文のチャンクへの分割のしかたは任意である。文中の文法的にあるいは意味的に切れ易い箇所でチャンクへの分割を行っても良いし(例えば、構文上の句の単位できるなど)、所定の単語数で機械的に複数のチャンクへの分割を行っても良い。また、読みやすさのために記者またはアナウンサーが改行している箇所で分割しても良い。また、原稿中の文の重複度と必要とする認識誤りの訂正能力に応じて適切な長さのチャンクに分割しても良い。また、許容される字幕の表示遅れに応じて、適切な長さのチャンクに分割しても良い。長い単語列をチャンクとして設定すると、修正精度は高くなるが、送出する字幕単語列の確定が遅くなる。短い単語列をチャンクとして設定すると、送出する字幕単語列の確定は早く行うことができるようになるが、修正精度は低下する。また、期待される音声認識の認識精度と原稿と読み上げ音声の一致度合いに応じて適切な長さのチャンクへの分割を行うようにしても良い。   As described above, in this embodiment, a sentence is divided into chunks and an output transition is provided at the end of the chunk. The method of dividing the sentence into chunks is arbitrary. Divide into chunks at grammatically or semantically breakable points in the sentence (for example, syntactic phrases can be used), or mechanically divide into multiple chunks with a predetermined number of words May be. Moreover, you may divide | segment in the location where the reporter or the announcer has started a new line for readability. Further, it may be divided into chunks of an appropriate length according to the degree of redundancy of sentences in the original and the required recognition error correction capability. Further, it may be divided into chunks of an appropriate length according to the allowable subtitle display delay. When a long word string is set as a chunk, the correction accuracy is improved, but the determination of the subtitle word string to be transmitted is delayed. If a short word string is set as a chunk, the subtitle word string to be sent can be determined quickly, but the correction accuracy is reduced. Further, division into chunks of an appropriate length may be performed according to the expected recognition accuracy of voice recognition and the degree of matching between the original and the reading voice.

[4.WFSTの構築方法]
次に、トランスデューサー構築装置240によるWFSTの構築方法について説明する。トランスデューサー構築装置240がWFSTを構築するに当たり、原稿テキスト記憶装置200に含まれる原稿テキストは、予め文に分割しておく。なお、文の最後は句点によって区切られる場合には、句点を目印に分割することができる。また、原稿テキストの構文解析を行うことによって、構文ルールから文の切れ目を検出して文への分割を行うようにしても良い。また、人手によって目印がつけられた箇所で文への分割を行うようにしたりしても良い。
[4. WFST construction method]
Next, a WFST construction method by the transducer construction device 240 will be described. When the transducer construction device 240 constructs a WFST, the manuscript text included in the manuscript text storage device 200 is divided into sentences in advance. If the end of a sentence is delimited by a punctuation mark, the punctuation mark can be divided into landmarks. Further, by analyzing the text of the manuscript, sentence breaks may be detected from the syntax rules and divided into sentences. Further, it may be possible to divide into sentences at places marked manually.

本実施形態では、原稿テキスト記憶装置200に記憶されているテキストは、ニュース番組で取り上げられる可能性のある読み原稿である。ここで用意される原稿は、複数のニュース項目のための原稿を含む。また、各ニュース項目は、複数の文を含む。本実施形態では、ニュース項目が読まれる順番、あるいは文が読まれる順番を予め特定しておく必要がない。読まれる可能性のある原稿をすべて用意して、原稿テキスト記憶装置200に記憶させておけばよい。また、それらの原稿のうち、結果的に読まれないニュース項目や読まれない文があっても良い。   In the present embodiment, the text stored in the manuscript text storage device 200 is a reading manuscript that may be picked up by a news program. The manuscript prepared here includes manuscripts for a plurality of news items. Each news item includes a plurality of sentences. In this embodiment, it is not necessary to specify in advance the order in which news items are read or the order in which sentences are read. All documents that may be read may be prepared and stored in the document text storage device 200. In addition, among these manuscripts, there may be news items and sentences that cannot be read as a result.

なお、WFSTの構築に先立って予め人手により原稿を整形しておくようにする。この整形により、必ず連続して読み上げられる単語列(文)を一つの文の単位としてまとめる。また、この整形により、原稿中において読み飛ばされる可能性のある部分を別の文として切り離しておく。   Prior to the construction of the WFST, the manuscript is previously shaped manually. By this shaping, word strings (sentences) that are always read continuously are collected as one sentence unit. Also, by this shaping, a portion that may be skipped in the document is separated as another sentence.

また、文は、予めチャンクに分割しておく。チャンク(即ち、出力遷移を行うまでの単語列の単位)を長く設定すると修正精度は高くなるが、出力する単語列の確定が遅くなる。逆に、チャンクを短く設定すると、送出する字幕単語列の確定は速くなるが修正精度が低下する。よって、どのような単位を利用するかについては、期待される音声認識の認識精度と、原稿と読み上げ音声の一致度合いと、に応じて適宜設計すればよい。いかなる方法で文のチャンクへの分割を行うにしても、チャンクは、文よりは短い単位である。
そして、トランスデューサー構築装置240は、チャンクを受理した直後に出力遷移を配置するように、WFSTを構成する。
The sentence is divided into chunks in advance. If the chunk (that is, the unit of the word string until the output transition is performed) is set long, the correction accuracy increases, but the determination of the word string to be output is delayed. On the other hand, if the chunk is set to be short, the determination of the subtitle word string to be sent out becomes fast, but the correction accuracy decreases. Therefore, what unit should be used may be appropriately designed according to the expected recognition accuracy of voice recognition and the degree of matching between the original and the reading voice. Whatever method is used to divide a sentence into chunks, a chunk is a shorter unit than a sentence.
The transducer construction device 240 then configures the WFST to place an output transition immediately after receiving the chunk.

トランスデューサー構築装置240による具体的なWFST構築手順は、次の通りである。WFSTの構築は、まず、WFSTの始点から開始される。
トランスデューサー構築装置240は、原稿テキスト記憶装置200からを一単語ずつ読み込む度に、同単語を受理する重み0の遷移と新たなノードとを順次作成していく。ここで、重み0の遷移とは3つ組のパラメーターで表すと、(s/ε:0.0)のことである。なお、sは単語である。そして、チャンクを一単位として、そのチャンクの後に出力遷移を追加してから、次のチャンクに含まれる各単語について同様の処理を繰り返す。なお、チャンクの終端が文の終端である場合には、最後のチャンクに関する出力遷移をWFSTの終点ノードに連結する。即ち、最後のチャンクに関する出力遷移の遷移先状態を、その終点ノードとする。
まだ更なる文が残っていたら、再び始点から始めて、上記の処理を繰り返す。
以下、原稿テキスト記憶装置200に含まれる全ての文についての処理を終えるまで、同様に繰り返す。
A specific WFST construction procedure by the transducer construction device 240 is as follows. The construction of the WFST is started from the start point of the WFST.
Each time the transducer construction device 240 reads each word from the document text storage device 200, the transducer construction device 240 sequentially creates a transition with a weight of 0 and a new node for accepting the word. Here, the transition of weight 0 means (s / ε: 0.0) when expressed by a triple parameter. Note that s is a word. Then, after adding an output transition after the chunk as a unit, the same processing is repeated for each word included in the next chunk. When the end of the chunk is the end of the sentence, the output transition related to the last chunk is connected to the end point node of WFST. That is, the transition destination state of the output transition related to the last chunk is set as the end node.
If there are more sentences left, start again from the starting point and repeat the above process.
Thereafter, the same processing is repeated until the processing for all sentences included in the document text storage device 200 is completed.

原稿テキスト記憶装置200からすべての原稿テキストを読み込み終えた後、次に、トランスデューサー構築装置240は、終点ノードと始点ノードとをイプシロン遷移で連結する。既に述べたように、イプシロン遷移とは、3つ組のパラメーターで表すと(ε/ε:ωu)という状態遷移ことである。なお、トランスデューサー構築装置240は、このイプシロン遷移のための重みωuとして適切な値を与える。これにより、WFSTは、より長く一致する文のスコアを高くすることができるようになる。またこれにより、WFSTは、他の文の接頭辞と一致する文が原稿中に存在するような場合にも、適切に動作できるようになる。そして、最後に、トランスデューサー構築装置240は、各単語の遷移に、置換、脱落、挿入を受理する遷移を追加する。なお、図3では、置換、脱落、挿入のための状態遷移を省略している。 After reading all the original texts from the original text storage device 200, the transducer construction device 240 then connects the end point node and the start point node with an epsilon transition. As already described, the epsilon transition is a state transition of (ε / ε: ω u ) in terms of a triple parameter. The transducer construction device 240 gives an appropriate value as the weight ω u for this epsilon transition. As a result, the WFST can increase the score of sentences that match longer. This also allows the WFST to operate properly even when a sentence that matches the prefix of another sentence exists in the document. Finally, the transducer construction device 240 adds a transition that accepts substitution, omission, and insertion to the transition of each word. In FIG. 3, state transitions for replacement, omission, and insertion are omitted.

[5.音声認識の適応化]
原稿をもとに読み上げられる音声を音声認識装置220が実際に認識するにあたり、予め、この原稿に含まれる単語列をもとに音声認識の言語モデルを適応化しておくことが望ましい。これにより、原稿通りに読み上げられた場合の音声認識の精度を高くすることができる。
[5. Adaptation of speech recognition]
When the speech recognition device 220 actually recognizes the speech read out based on the document, it is desirable to adapt the language model for speech recognition based on the word string included in the document in advance. As a result, it is possible to increase the accuracy of voice recognition when the text is read as it is.

[6.出力遷移からのトレースバック]
本実施形態では、トレースバックを開始するノードを、出力遷移の直前のノードのみに限定する。つまり、図3に例示したWFSTの状態遷移図において、トレースバックの対象となるノードは黒四角の記号で示したノードのみである。そして、黒丸の記号で示しているノードをトレースバックの対象としない。つまり、トレースバックの対象となるノードは、各チャンクの終端に当たるノードのみである。
[6. Traceback from output transition]
In the present embodiment, the node that starts the traceback is limited to the node immediately before the output transition. That is, in the WFST state transition diagram illustrated in FIG. 3, only the nodes indicated by black square symbols are the target of traceback. The nodes indicated by the black circle symbols are not subject to traceback. In other words, the node that is the target of traceback is only the node corresponding to the end of each chunk.

WFSTのすべてのノードを対象としてその最尤ノード(時刻tにおいてすべてのノードの中で最もスコアの高いノード)からトレースバックを行うのと比べて、本実施形態の上記の方法では、出力の遅延を短縮することができる。つまり、本実施形態では、音声認識処理の結果に応じた修正後の字幕の表示の遅延を短縮することができる。
なお、既に述べたWFSTの構築方法においては、文を予めチャンクに分割しておき、各チャンクの終端に続いて出力遷移を設けた。しかしながら、文をチャンクに分割しないようにして(言い換えれば、1文を1チャンクとして)、トレースバックを開始するノードを出力遷移の直前のノードのみに限定することも可能である。そしてこのような場合にも、すべてのノードを対象としてその最尤ノードからトレースバックを行うのと比べて、出力の遅延を短縮することができる。
Compared with the case where the traceback is performed for all nodes of WFST from the maximum likelihood node (the node having the highest score among all the nodes at time t), in the above method of the present embodiment, the output delay is increased. Can be shortened. That is, in the present embodiment, it is possible to reduce the delay in displaying the corrected subtitles according to the result of the voice recognition process.
In the WFST construction method already described, a sentence is divided into chunks in advance, and an output transition is provided following the end of each chunk. However, it is also possible not to divide the sentence into chunks (in other words, one sentence as one chunk) and to limit the node that starts traceback to only the node immediately before the output transition. In such a case, the output delay can be shortened as compared with the case where the traceback is performed from the maximum likelihood node for all nodes.

[7.字幕文出力の確定方法]
音声認識誤り修正装置100が、出力する単語列を確定するための方法について説明する。
時刻tにおける出力遷移の直前の最尤ノード(言い換えれば、チャンクの終端に当たるノードの中の最尤ノード)であるn(チルダ)(t)は、下の式(1)で表される。
[7. How to confirm subtitle text output]
A method for the speech recognition error correction apparatus 100 to determine an output word string will be described.
N (tilde) (t), which is the maximum likelihood node immediately before the output transition at time t (in other words, the maximum likelihood node in the node corresponding to the end of the chunk), is expressed by the following equation (1).

Figure 0006358744
Figure 0006358744

式(1)において、Qは、トレースバックの対象となるノードの集合である。つまり、Qは、出力遷移の直前のノードの集合である。nは、集合Qに属するノードである。そして、L(t)は、時刻tにおけるノードnのスコアである。なお、このスコアL(t)は、下の式(2)で表される。 In Expression (1), Q is a set of nodes that are subject to traceback. That is, Q is a set of nodes immediately before the output transition. n is a node belonging to the set Q. L n (t) is the score of node n at time t. The score L n (t) is expressed by the following formula (2).

Figure 0006358744
Figure 0006358744

式(2)において、eは状態遷移であり、eおよびeは、それぞれ、状態遷移eの遷移元および遷移先のノードである。またeは、状態遷移eの状態遷移重みの値である。また、eは、状態遷移eの入力記号である。そして、eは、単語W、ε(空入力)、*(いずれの入力にもマッチするワイルドカード)のいずれかである。つまり、式(2)に示すとおり、時刻tにおけるノードnのスコア(尤度)は、ノードnを遷移先ノードとするすべての状態遷移の中で、時刻t−1におけるその状態遷移eの遷移元ノードeのスコアに、その状態遷移eの重み値eを加算したものである。 In Expression (2), e is a state transition, and ef and et are the transition source and transition destination nodes of the state transition e, respectively. E w is the value of the state transition weight of the state transition e. E i is an input symbol of the state transition e. E i is one of the words W, ε (empty input), and * (wildcard that matches any input). That is, as shown in Expression (2), the score (likelihood) of the node n at the time t is the transition of the state transition e at the time t−1 among all the state transitions with the node n as the transition destination node. the score of the source node e f, is obtained by adding the weight value e w a state transition e.

上記の式(1)による最尤ノードを求めるために、音声認識誤り修正装置100は、スコアL(t)に関して、閾値による枝刈りを行いながら、効率的なビタビ探索を行う。 In order to obtain the maximum likelihood node according to the above equation (1), the speech recognition error correction apparatus 100 performs an efficient Viterbi search for the score L n (t) while performing pruning with a threshold.

そして、音声認識誤り修正装置100は、式(1)により求められた最尤ノードにたどり着くまでに通過した状態遷移eを、順次トレースバックして、状態遷移の系列を得る。既に出力済みの単語の時刻t−t´までトレースバックした結果はht−t´は、下の式(3)で表される。 Then, the speech recognition error correction apparatus 100 sequentially traces back the state transitions e passed until reaching the maximum likelihood node obtained by the equation (1) to obtain a state transition sequence. Already it results traced back to the time t-t'of already output word h t-t'is expressed by the following equation (3).

Figure 0006358744
Figure 0006358744

式(3)において、{et−t´,・・・}は、WFSTの始端を含まない状態遷移の集合である。また、{・・・,e}は、WFSTの終端を含まない状態遷移の集合である。そして、O(チルダ)は、下の式(4)で表されるように、始端と終端とに挟まれた区間l (つまり、l は文)の列である(k=1,2,・・・)。 In Equation (3), {e t−t ′ ,...} Is a set of state transitions that do not include the start of WFST. Also, {..., E t } is a set of state transitions that do not include the end of WFST. O (tilde) t is a sequence of a section l t k (that is, l t k is a sentence) sandwiched between the start and end, as expressed by the following expression (4) (k = 1, 2, ...).

Figure 0006358744
Figure 0006358744

式(4)において、rは、O(チルダ)に含まれる区間l (文)の数である。さらに、このl は、下の式(5)に示すように、チャンクの列である。 In Expression (4), r t is the number of sections l t k (sentences) included in O (tilde) t . Furthermore, this l t k is a sequence of chunks, as shown in equation (5) below.

Figure 0006358744
Figure 0006358744

式(5)において、mt,kは、区間l に含まれるチャンクの数である。
音声認識誤り修正装置100は、この区間l ごとに下の式(6)で表されるチャンクの列を出力する。つまり、下の式(6)で表されるものが、音声認識誤り修正装置100によって出力される字幕文である。
In equation (5), m t, k is the number of chunks included in the interval l t k .
The speech recognition error correction apparatus 100 outputs a sequence of chunks represented by the following equation (6) for each section l t k . That is, what is represented by the following formula (6) is a caption sentence output by the speech recognition error correction apparatus 100.

Figure 0006358744
Figure 0006358744

式(6)において、E(チルダ)(ot,k )は、誤り率に基づく誤りスコアである。また、Tは、誤りスコアに関する閾値であり、0<T<1である。誤りスコアE(チルダ)(ot,k )は、下の式(7)によって求められる。 In Equation (6), E (tilde) (o t, k u ) is an error score based on the error rate. T is a threshold value regarding the error score, and 0 <T <1. The error score E (tilde) (o t, k u ) is obtained by the following equation (7).

Figure 0006358744
Figure 0006358744

式(7)において、2入力の関数E(チルダ)(o,o)は、下の式(8)に示すように、E(チルダ)(o)とE(チルダ)(o)の、単語数の重みを付けた平均である。 In the equation (7), the two-input function E (tilde) (o 1 , o 2 ) is expressed by E (tilde) (o 1 ) and E (tilde) (o 2 ) as shown in the following equation (8). ) Of the word weighted average.

Figure 0006358744
Figure 0006358744

式(8)において、NとNは、それぞれ、チャンクoとoに含まれる単語の数である。また、E(チルダ)(o)は、チャンクoにおける受理単語数Nと、誤りを受理したことによる遷移の通過数Nとから求めた誤り率(編集距離)であり、下の式(9)で表される。 In Expression (8), N 1 and N 2 are the numbers of words included in chunks o 1 and o 2 , respectively. E (tilde) (o) is an error rate (edit distance) obtained from the number of accepted words N r in chunk o and the number of transitions N e due to acceptance of an error. 9).

Figure 0006358744
Figure 0006358744

つまり、式(7)に示した通り、区間l に含まれるチャンクot,k の誤りスコアであるE(チルダ)(ot,k )は、次に述べるように定義される。即ち、E(チルダ)(ot,k )は、チャンクot,k において式(9)で計算される誤り率と、ひとつ前のチャンクot,k u−1で計算される誤りスコアとの単語数による重み付き平均の値に基づく。ただし、その単語数による重み付き平均の値が所定の閾値Tよりも小さい場合には、E(チルダ)(ot,k )の値はゼロである(式(7)の右辺上段のケース)。一方、その単語数による重み付き平均の値が閾値T以上の場合にはその重み付き平均の値をそのままE(チルダ)(ot,k )の値とする(式(7)の右辺下段のケース)。このように、E(チルダ)(ot,k )の値は、ひとつ前のチャンクot,k u−1についてのE(チルダ)(ot,k u−1)の値に依存して定義されており、式(7)で再帰的に計算することにより出力を確定できる。 That is, as shown in the equation (7), E (tilde) (o t, k u ) , which is an error score of the chunks o t, k u included in the interval l t k , is defined as follows. . That is, the error E (tilde) (o t, k u), the chunk o t, and the error rate calculated by Equation (9) in the k u, the previous chunk o t, is calculated in the k u-1 Based on the score and the weighted average value by number of words. However, when the weighted average value based on the number of words is smaller than a predetermined threshold value T, the value of E (tilde) (o t, k u ) is zero (the upper case in the right side of Expression (7)). ). On the other hand, when the weighted average value based on the number of words is equal to or greater than the threshold value T, the weighted average value is directly used as the value of E (tilde) (o t, k u ) (lower right side of Expression (7)). Case). In this way, the value of E (tilde) (o t, k u) is dependent on the value of the previous chunk o t, E for k u-1 (tilde) (o t, k u- 1) The output can be determined by calculating recursively using equation (7).

なお、式(7)において場合分けして、閾値Tよりも低い場合の誤りスコアをカットオフして0にしていることにより、前のチャンクにおける誤りの程度が小さい場合には、後ろの方のチャンクまでその誤りスコアを波及させないようにしている。
なお、式(6)や式(7)に示した閾値Tの具体的な値は適宜定めればよいが、例えばT=0.5とする、あるいは0.4≦T≦0.6の範囲内の値とすることが好適である。Tの値が大きすぎると(1に近づくと)高い誤り率を許容してしまうという不都合がある。他方で、Tの値が小さすぎると誤りに対して厳格になりすぎて、本来読み上げられている原稿に対して出力できる字幕の密度が低くなり過ぎるという不都合がある。したがって、前記の0.4≦T≦0.6の範囲が好適であり、特にT=0.5とすることが好適である。
In addition, when the error score in the previous chunk is small by cutting off the error score when the value is lower than the threshold T to 0 by dividing into cases in Expression (7), The error score is not spread to the chunk.
Note that the specific value of the threshold T shown in the equations (6) and (7) may be determined as appropriate. For example, T = 0.5, or 0.4 ≦ T ≦ 0.6. It is preferable to set the value within the range. If the value of T is too large (approaching 1), a high error rate is allowed. On the other hand, if the value of T is too small, it becomes too strict against errors, and there is a disadvantage that the density of subtitles that can be output for a document that is originally read out becomes too low. Therefore, the range of 0.4 ≦ T ≦ 0.6 is preferable, and T = 0.5 is particularly preferable.

[8.音声認識誤り修正装置の構成]
次に、音声認識誤り修正装置の構成について説明する。
図4は、音声認識誤り修正装置100の概略機能構成を示す機能ブロック図である。図示するように、音声認識誤り修正装置100は、WFST記憶部110と、ノードデータ更新部120と、ノードデータ記憶部130と、原稿探索部140と、出力部150とを含んで構成される。
[8. Configuration of voice recognition error correction device]
Next, the configuration of the speech recognition error correction apparatus will be described.
FIG. 4 is a functional block diagram showing a schematic functional configuration of the speech recognition error correction apparatus 100. As illustrated, the speech recognition error correction apparatus 100 includes a WFST storage unit 110, a node data update unit 120, a node data storage unit 130, a document search unit 140, and an output unit 150.

WFST記憶部110(有限状態トランスデューサー情報記憶部)は、原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する。そして、WFST記憶部110は、出力シンボルが空でない状態遷移であるところの出力遷移を状態遷移の一部として含んで記憶している。また、原稿テキストに含まれる文を複数のチャンクに分割し、チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に出力遷移を設けたWFSTの、状態に関する情報および状態遷移に関する情報を記憶する。   The WFST storage unit 110 (finite state transducer information storage unit) is a finite state transducer that performs state transition while sequentially accepting words input as speech recognition results corresponding to the original text. Information on the state of a finite state transducer that makes a state transition while accepting an error in a word included in the result, and includes a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition. Information is stored. The WFST storage unit 110 stores an output transition where the output symbol is a non-empty state transition as a part of the state transition. Also, information on the state and information on the state transition of the WFST in which a sentence included in the manuscript text is divided into a plurality of chunks and an output transition is provided after a state transition path that accepts a word included in the chunk as an input symbol. Remember.

具体的には、WFST記憶部110は、原稿テキスト記憶装置200(図1)に基づいて予めトランスデューサー構築装置240が構築したWFSTを記憶している。具体的には、WFST記憶部110は、状態遷移図(ネットワーク)と等価な情報を記憶する。その情報とは、状態(ノード)の識別情報およびその状態の属性情報と、状態遷移(枝)の識別情報およびその状態遷移の属性情報である。状態遷移の属性情報は、遷移元状態の識別情報と、遷移先状態の識別情報と、遷移に関する重みの値とを少なくとも含む。   Specifically, the WFST storage unit 110 stores the WFST constructed in advance by the transducer construction device 240 based on the document text storage device 200 (FIG. 1). Specifically, the WFST storage unit 110 stores information equivalent to the state transition diagram (network). The information includes state (node) identification information and state attribute information, state transition (branch) identification information and state transition attribute information. The state transition attribute information includes at least transition source state identification information, transition destination state identification information, and a weight value related to the transition.

ノードデータ更新部120は、原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた認識単語に応じて、WFSTにおける状態ごとの当該時刻(その時刻)でのスコアを算出し、算出された前記スコアを用いてノードデータ記憶部130を更新する。
具体的には、ノードデータ更新部120は、音声認識装置220が出力する認識単語列に含まれる単語の入力を受け付ける時刻毎に、WFSTのネットワーク上を遷移可能な状態のスコアをノードデータとして計算および更新するものである。ノードデータ更新部120は、例えば、音声認識装置220から認識単語を1単語受け付ける都度、WFST記憶部110に記憶されたWFSTを参照して逐次的にビタビ探索を行い、ノードデータ記憶部130に記憶されているノードデータを更新する。
The node data updating unit 120 receives an input of a recognized word that is a speech recognition result corresponding to the document text from the outside, and according to the received recognized word, a score at the time (that time) for each state in the WFST. And the node data storage unit 130 is updated using the calculated score.
Specifically, the node data update unit 120 calculates, as node data, a score of a state that can be transited on the WFST network at each time when an input of a word included in the recognized word string output by the speech recognition device 220 is received. And to update. The node data update unit 120 performs, for example, a Viterbi search sequentially with reference to the WFST stored in the WFST storage unit 110 every time a recognition word is received from the voice recognition device 220 and stores it in the node data storage unit 130. Update the node data.

ノードデータ更新部120は、認識単語列の一部として入力される単語に応じて、状態遷移した場合のスコアを計算する。ノードデータ更新部120は、状態遷移の重みの値に基づいて、スコアを計算する。WFSTの例として述べたように、対応原稿と一致する単語が原稿通りの順で入力された場合には、重みの値として「0」をスコアに加算する。対応原稿と異なる単語が入力された場合、重みの値として「−1]をスコアに加算する。この「−1」はペナルティの意味を有する。   The node data updating unit 120 calculates a score when the state transition is performed according to the word input as a part of the recognized word string. The node data update unit 120 calculates a score based on the weight value of the state transition. As described in the example of WFST, when words matching the corresponding original are input in the order of the original, “0” is added to the score as a weight value. When a word different from the corresponding manuscript is input, “−1” is added to the score as a weight value, and “−1” has a penalty meaning.

例えば、図2に示した例において、認識単語列として入力する単語列が、対応原稿と全く同じ単語列である場合、始点ノード001から、単語「先月」を受理して対応原稿の単語に対応する遷移を通ってノード002に進む。そして、この状態遷移に対応して、ノードデータ更新部120は、スコアに「0」を加算する。次に、ノード002から、例えば単語「の」を受理してノード003に進む。そして、この状態遷移に対応して、ノードデータ更新部120は、スコアに「0」を加算する。同様に、「関東甲信」、…を順次受理していくと、スコアには、各単語に対応する状態遷移の重みの値である「0」ずつ足していくことになる。   For example, in the example shown in FIG. 2, when the word string input as the recognition word string is exactly the same word string as the corresponding manuscript, the word “Last Month” is received from the start node 001 and the word of the corresponding manuscript is handled. Go to node 002 through the transition to. Then, in response to this state transition, the node data update unit 120 adds “0” to the score. Next, for example, the word “no” is received from the node 002 and the process proceeds to the node 003. Then, in response to this state transition, the node data update unit 120 adds “0” to the score. Similarly, when “Kanto Koshin”,... Are sequentially received, “0” that is the value of the weight of state transition corresponding to each word is added to the score.

しかし他方で、例えば図2に示した例において、認識単語列として入力する単語列が、対応原稿と異なる単語列である場合、異なる状態遷移をする。つまり、始点ノード001から、例えば単語「先週」を受理すると、対応原稿の単語「先月」が置換されているので、置換に対応する遷移を通ってノード002に進む。この場合、ノードデータ更新部120は、スコアにその状態遷移の重みの値である「−1」(ペナルティ)を加算する。また、挿入誤りや脱落誤りに対応する遷移を通った場合にも、同様にノードデータ更新部120は、スコアにペナルティの「−1」を加算する。   On the other hand, for example, in the example shown in FIG. 2, when the word string input as the recognition word string is a word string different from the corresponding document, the state transition is different. In other words, when the word “Last week” is received from the start point node 001, for example, the word “Last month” of the corresponding document is replaced. In this case, the node data updating unit 120 adds “−1” (penalty), which is the value of the weight of the state transition, to the score. Similarly, when a transition corresponding to an insertion error or a drop error is passed, the node data updating unit 120 similarly adds a penalty “−1” to the score.

このように、入力される認識単語がWFSTにおける状態遷移で受理する単語sと同じであった場合に、その遷移におけるスコアが最良となる。一方、置換、挿入、削除の編集に相当する状態遷移は、スコアが悪化する要因となる。ここで「編集」とは、本来あるべき単語を置換したり、削除したり、本来あるべき単語ではないものを挿入したりすることによって得られる結果を言う。例えば<D>が記載された状態遷移は、マッチする入力単語が無くても遷移できるが、<D>が記載された遷移だけを通るパスの場合、その遷移の数が多いほど、ペナルティが加算され、スコアが低くなる。WFSTは、認識単語列に、誤りや言い変えが含まれると、その分だけスコアが悪くなるという結果を生む。   Thus, when the input recognition word is the same as the word s accepted in the state transition in WFST, the score in the transition is the best. On the other hand, state transitions corresponding to editing of replacement, insertion, and deletion are factors that deteriorate the score. Here, “edit” refers to a result obtained by replacing or deleting a word that should be originally inserted, or by inserting a word that is not a word that should originally be. For example, a state transition with <D> can be transitioned even if there is no matching input word. However, in the case of a path that passes only a transition with <D>, the penalty increases as the number of transitions increases. And the score goes down. WFST produces a result that if the recognition word string includes an error or paraphrase, the score is deteriorated accordingly.

ノードデータ記憶部130は、WFSTにおける状態の尤度を表すスコアを記憶する。つまり、ノードデータ記憶部130は、ノードデータ更新部120によって計算されるノードデータを記憶するものである。ノードデータ更新部120は、上述した計算結果に基づき、ノードデータ記憶部130をタイムリーに更新する。ノードデータ記憶部130は、例えば、半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。   The node data storage unit 130 stores a score representing the likelihood of a state in WFST. That is, the node data storage unit 130 stores the node data calculated by the node data update unit 120. The node data update unit 120 updates the node data storage unit 130 in a timely manner based on the calculation result described above. The node data storage unit 130 is configured using a general storage unit such as a semiconductor memory or a hard disk device, for example.

原稿探索部140は、処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部130を参照することにより、その時点における最尤ノードを決定するとともに、WFST記憶部110とノードデータ記憶部130とを参照して、最尤ノードから状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となったパスに関して、当該パスに誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする。また、原稿探索部140は、チャンクごとに誤りスコアを算出するとともに、チャンクごとの誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する出力遷移の出力シンボルを、確定出力とするものであり、且つ、原稿探索部140は、チャンクごとの誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する。   When the document search unit 140 receives an activation signal indicating the start of processing from the outside, the document search unit 140 refers to the node data storage unit 130 to determine the maximum likelihood node at that time, and at the same time, the WFST storage unit 110 and the node data storage unit 130. And tracing back the state transition from the maximum likelihood node to perform a traceback process until a predetermined time when the state transition has been confirmed, and setting the path of the state transition subjected to the traceback process as an output candidate, For an output candidate path, an error score is calculated according to the ratio of the state transition related to the error in the path, and when the error degree is smaller than a predetermined threshold based on the calculated error score, The output candidate is determined output. Further, the manuscript search unit 140 calculates an error score for each chunk and, when the error level is smaller than a predetermined threshold based on the error score for each chunk, outputs an output transition symbol corresponding to the chunk, When the document search unit 140 calculates an error score for each chunk, the manuscript search unit 140 corresponds to the ratio of the state transition related to the error with respect to the chunk and the section of the chunk immediately before the chunk. The error score is calculated as the error score of the chunk.

また、原稿探索部140は、出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における最尤ノードとして決定する。言い換えれば、原稿探索部140は、出力遷移の遷移元状態ではない状態に関しては、最尤ノードであるか否かを考慮しない。   In addition, the document search unit 140 determines the node having the maximum likelihood among the nodes corresponding to the transition source state of the output transition as the maximum likelihood node at that time. In other words, the document search unit 140 does not consider whether or not it is a maximum likelihood node for a state that is not the transition source state of the output transition.

具体的には、 原稿探索部140は、最終最良仮説を確定するための全原稿についての全認識単語列の認識結果の入力を待たず、予め定められた処理開始条件が満たされる都度、最尤の修正結果を求めるものである。原稿探索部140は、処理開始条件が満たされると、その時点でノードデータ記憶部130に記憶されているノードデータに基づいて、WFSTのネットワーク上をトレースバックしながら、最終最良仮説を部分的に近似した仮説を誤り修正結果として逐次確定する。   Specifically, the manuscript search unit 140 does not wait for input of recognition results of all recognition word strings for all manuscripts for determining the final best hypothesis, and each time the predetermined processing start condition is satisfied, The correction result is obtained. When the processing start condition is satisfied, the document search unit 140 traces the final best hypothesis partially while tracing back on the WFST network based on the node data stored in the node data storage unit 130 at that time. Approximate hypotheses are sequentially determined as error correction results.

原稿探索部140は、WFSTに含まれる対応原稿の単語列と、入力された認識単語列との編集距離に基づいて最終最良仮説を近似する。原稿探索部140は、WFSTのネットワーク上で予め定められた範囲毎に区切ったパス間において、その先頭から末尾までのパス区間での編集距離がある程度小さければ、そのパス区間が信頼できるものとして確定して出力する。ここで、編集距離が短いということは、認識単語列と原稿の単語列とがほとんどマッチしているパスを通ってきたことを意味する。逆に、編集距離が長いパス区間は信頼度が低いので、その時点では確定せずに、次回のトレースバックのときにも利用する。いつまでも信頼度が低いパス区間は、原稿には元々記載されていない違うことを話した区間である、と推定される。よって、信頼度が低いパス区間を出力しない。   The manuscript search unit 140 approximates the final best hypothesis based on the edit distance between the word string of the corresponding manuscript included in the WFST and the input recognition word string. The document search unit 140 determines that the path section is reliable if the edit distance in the path section from the beginning to the end is small to some extent between the paths divided for each predetermined range on the WFST network. And output. Here, the short edit distance means that the path through which the recognized word string and the original word string are almost matched has been passed. On the other hand, since the reliability of a path section with a long editing distance is low, it is not determined at that time and is used for the next traceback. It is presumed that a path section having a low reliability forever is a section talking about a difference that is not originally described in the manuscript. Therefore, a path section with low reliability is not output.

原稿探索部140における処理開始条件とは、例えば、発話音声がない無音期間が所定の期間に達した場合、または、音声認識装置220が出力する認識単語列としての単語の入力数が所定の単語数に達した場合等である。上記の所定の期間は、特に限定されないが一例として3秒間とする。また、上記の所定の単語数は、特に限定されないが一例として20単語とする。原稿探索部140に入力される起動信号は、上記の処理開始条件が成立したことを示す信号である。このときの起動信号は、例えば音声認識装置220が自動的にonするようにしてもよいし、操作者による手動の操作によってonするようにしても良い。この操作者は、ポーズ(所定の長さの無音)を認識したときや、所定の単語数を音声認識装置220が出力した認識したときに、起動信号をonする操作を行う。音声認識装置220が自動的に起動信号をonする場合には、音声認識の結果を利用してポーズを検出したり、音声認識結果として出力する単語の数をカウントしたりすることにより、起動信号を切り替えるきっかけとする。この構成により、認識単語が一単語入力される度に探索処理を開始する場合に比べて、処理負荷を低減できる。また、無音期間が所定の期間だけ継続していれば、その間、認識結果の単語が音声認識装置220側から渡されてこないので、装置の処理の負荷がその時点に集中することなく、ノードスコアを容易に比較することができる。   The processing start condition in the manuscript search unit 140 is, for example, a case where a silence period in which there is no uttered speech reaches a predetermined period, or the number of input words as a recognition word string output by the speech recognition device 220 is a predetermined word This is the case when the number is reached. The predetermined period is not particularly limited, but is 3 seconds as an example. The predetermined number of words is not particularly limited, but is 20 words as an example. The activation signal input to the document search unit 140 is a signal indicating that the above process start condition is satisfied. The activation signal at this time may be automatically turned on, for example, by the voice recognition device 220 or may be turned on by a manual operation by the operator. This operator performs an operation of turning on the activation signal when recognizing a pause (silence of a predetermined length) or when recognizing a predetermined number of words output by the speech recognition device 220. When the speech recognition device 220 automatically turns on the activation signal, the activation signal is detected by detecting a pause using the result of the speech recognition or counting the number of words output as the speech recognition result. As a trigger to switch. With this configuration, the processing load can be reduced compared to the case where the search process is started each time a recognized word is input. Further, if the silent period continues for a predetermined period, the recognition result word is not passed from the voice recognition device 220 during that time, so that the processing load of the device is not concentrated at that time, and the node score Can be easily compared.

上記の機能を実現するために、原稿探索部140は、さらに次の構成を有する。即ち、原稿探索部140は、最尤ノード検出部141と、トレースバック部142と、原稿分割部143と、出力候補記憶部144と、誤りスコア算出部145と、誤りスコア判別部146と、確定出力記憶部147と、確定時刻記憶部148とを含んで構成される。   In order to realize the above function, the document search unit 140 further has the following configuration. That is, the document search unit 140 includes a maximum likelihood node detection unit 141, a traceback unit 142, a document division unit 143, an output candidate storage unit 144, an error score calculation unit 145, an error score determination unit 146, and a confirmation. An output storage unit 147 and a fixed time storage unit 148 are included.

最尤ノード検出部141は、外部から受信する起動信号をトリガーとして動作し、その時点で記憶されているノードデータにおいてスコアが最大のノードを検出するものである。この起動信号は、上で述べたとおり、予め定められた処理開始条件が満たされたときに外部から供給されるものである。   The maximum likelihood node detection unit 141 operates using an activation signal received from the outside as a trigger, and detects a node having the maximum score in the node data stored at that time. As described above, this activation signal is supplied from the outside when a predetermined processing start condition is satisfied.

トレースバック部142は、最尤ノード検出部141で特定されたノードから、当該ノードに到達するまでのパスについて、WFSTのネットワークを下流から上流に向かってたどる。このとき、トレースバック部142は、前回のトレースバックで確定した箇所まで、ネットワークを遡る。つまり、トレースバック部142は、前回確定して出力された単語系列の最後の入力単語に対応した時刻までトレースバックする。   The traceback unit 142 follows the WFST network from downstream to upstream for the path from the node specified by the maximum likelihood node detection unit 141 to the node. At this time, the traceback unit 142 goes back to the network to the place determined by the previous traceback. That is, the traceback unit 142 traces back to the time corresponding to the last input word of the word series that has been finalized and output.

原稿分割部143は、トレースバックするパスの中で、出力遷移に対応する区間ごとに単語列を切り出す。ここで、出力遷移とは、既に説明したように記号の出力を伴う状態遷移である。トランスデューサー構築装置240がWFSTを構築するときに、チャンクの終端の直後に、出力遷移が設けられている。つまり、原稿分割部143によって分割された結果の区間は、前述のチャンクの単位である。原稿分割部143は、トレースバックされた結果得られるパス全体を分割し、分割した結果得られる各々の単語列を出力する。   The document dividing unit 143 cuts out a word string for each section corresponding to the output transition in the traceback path. Here, the output transition is a state transition accompanied by the output of a symbol as described above. When the transducer construction device 240 constructs a WFST, an output transition is provided immediately after the end of the chunk. That is, the section obtained as a result of the division by the document dividing unit 143 is the above-described chunk unit. The document dividing unit 143 divides the entire path obtained as a result of the traceback, and outputs each word string obtained as a result of the division.

出力候補記憶部144は、原稿分割部143が分割した結果得られたパス区間に対応した出力遷移の出力シンボル(切り出された原稿)を、出力候補として記憶する。出力候補記憶部144は、例えば、半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。   The output candidate storage unit 144 stores an output transition output symbol (cut out document) corresponding to the path section obtained as a result of the division by the document dividing unit 143 as an output candidate. The output candidate storage unit 144 is configured using, for example, a general storage unit such as a semiconductor memory or a hard disk device.

誤りスコア算出部145は、原稿分割部143によって分割して切り出された区間(チャンク)毎に、誤りスコアを算出する。誤りスコア算出部145は、既に説明した式(7)を用いて誤りスコアを算出する。   The error score calculation unit 145 calculates an error score for each section (chunk) divided and cut out by the document dividing unit 143. The error score calculation unit 145 calculates the error score using the equation (7) already described.

誤りスコア判別部146は、誤りスコア算出部145によって算出された誤りスコアが所定の閾値Tより小さいか否かを判定する。つまり、誤りスコア判別部146は、既に説明した式(6)に含まれる条件に基づいて判別する。   The error score determination unit 146 determines whether or not the error score calculated by the error score calculation unit 145 is smaller than a predetermined threshold T. That is, the error score determination unit 146 performs determination based on the condition included in the already described formula (6).

確定出力記憶部147は、誤りスコア判別部146による判定結果に基づいて確定された出力(確定出力と呼ぶ)を記憶する。具体的には、誤りスコア判別部146によって誤りスコアが閾値Tより小さいと判定された場合、確定出力記憶部147は、当該所定パス区間における出力遷移の出力シンボルを誤り修正結果として記憶する。その他の場合、確定出力記憶部147は、当該所定パス区間における出力遷移の出力シンボルを誤り修正結果として記憶しない。なお、確定出力記憶部147は、例えば半導体メモリやハードディスク装置等の一般的な記憶手段を用いて構成される。また、確定出力記憶部147の記憶構造はスタックであり、確定出力記憶部147は後入れ先出し(LIFO)の構造でデータを保持する。   The confirmed output storage unit 147 stores an output that is confirmed based on the determination result by the error score determination unit 146 (referred to as a confirmed output). Specifically, when the error score determination unit 146 determines that the error score is smaller than the threshold T, the confirmed output storage unit 147 stores the output symbol of the output transition in the predetermined path section as an error correction result. In other cases, the definite output storage unit 147 does not store the output symbol of the output transition in the predetermined path section as an error correction result. The confirmed output storage unit 147 is configured using a general storage unit such as a semiconductor memory or a hard disk device. The storage structure of the definite output storage unit 147 is a stack, and the definite output storage unit 147 holds data in a last-in first-out (LIFO) structure.

確定時刻記憶部148は、最新のトレースバック処理で確定した確定時刻を記憶する。確定時刻記憶部148は、例えば半導体メモリやハードディスク装置等の一般的な記憶手段である。確定時刻記憶部148は、今回トレースバックする全パス区間(切り出された全ての原稿)について、誤りスコア判別部146による判別処理が終了した時点で、スタックに積まれた出力シンボルに対応する最新の確定単語の時刻を確定時刻として記憶する。   The fixed time storage unit 148 stores the fixed time determined by the latest traceback process. The fixed time storage unit 148 is a general storage unit such as a semiconductor memory or a hard disk device. The fixed time storage unit 148 stores the latest path symbol corresponding to the output symbol loaded on the stack at the time when the determination process by the error score determination unit 146 is completed for all the path sections (all cut out documents) traced back this time. The time of the confirmed word is stored as the confirmed time.

出力部150は、原稿探索部140によって誤り修正結果として確定された対応原稿(つまり、確定出力)を逐次出力するものである。出力部150は、WFSTのネットワークを今回トレースバックするパスの中で、切り出されたすべての対応原稿の各パス区間に対して算出された誤りスコアについての判定処理が全て終了するまでに確定された出力シンボルのデータを出力する。具体的には、出力部は、確定出力記憶部147のスタックに積まれている出力シンボルのデータを、そのスタックが空になるまで出力する。   The output unit 150 sequentially outputs the corresponding document (that is, the confirmed output) determined as the error correction result by the document search unit 140. The output unit 150 is determined by the time when the determination process for the error score calculated for each path section of all the cut out corresponding documents in the path traced back through the WFST network is completed. Outputs output symbol data. Specifically, the output unit outputs the output symbol data stacked on the stack of the definite output storage unit 147 until the stack becomes empty.

この音声認識誤り修正装置100は、間違って音声認識された単語を修正して出力するとともに、大幅に間違った認識結果を出力しない、という動作を行う。つまり、音声認識誤り修正装置100による修正結果を、仮に事前に人が見ることができたとしたときに、「これでは文章として成立していない」、「意味が異なっている」と感じるほどの間違い部分を、音声認識誤り修正装置100がその処理の中で検出し、その検出部分を出力しないという動作も、広義の誤り修正として含んでいる。これは、誤りスコアを算出し、その誤りスコアに基づく判別を行っていることによるものである。   The speech recognition error correcting apparatus 100 performs an operation of correcting and outputting a word that has been erroneously recognized, and not outputting a significantly incorrect recognition result. In other words, if the correction result by the speech recognition error correction device 100 can be viewed in advance by a person, an error is enough to feel that “this is not a sentence” or “the meaning is different”. The operation in which the speech recognition error correction apparatus 100 detects the part in the process and does not output the detected part is included as error correction in a broad sense. This is because an error score is calculated and discrimination is performed based on the error score.

[9.音声認識誤り修正装置の動作手順]
図5は、音声認識誤り修正装置100による処理の手順を示すフローチャートである。なお、このフローチャートの処理の前提は、次の4点である。
(前提1)認識結果の単語入力を{ω,ω,…,ω,…,ω,…}とする。
(前提2)前回のトレースバックにより確定した部分の最後の入力単語をωとし、そのときの出力遷移をa(時間軸に沿ったP番目の出力遷移)とする。
(前提3)認識結果の単語ωが入力された後、所定の無音が続いたことをトリガーに、逐次確定を行う場合を考える。
(前提4)ノードデータ更新部120は、無音になる前に最後に入力した単語ωを受理して遷移できるノードを全て計算する。
[9. Operation procedure of speech recognition error correction device]
FIG. 5 is a flowchart showing a processing procedure performed by the speech recognition error correction apparatus 100. The premise of the processing of this flowchart is the following four points.
(Assuming 1) the recognition result of a word input {ω 0, ω 1, ... , ω k, ..., ω j, ...} and.
(Premise 2) Let ω k be the last input word of the portion determined by the previous traceback, and let the output transition at that time be a P (P-th output transition along the time axis).
(Premise 3) Consider a case in which, after a word ω j as a recognition result is input, a predetermined silence is used as a trigger for successive determination.
(Premise 4) The node data updating unit 120 accepts the last input word ω j before silence and calculates all nodes that can make a transition.

以下では、このフローチャートを参照しながら、音声認識誤り修正装置100による処理の流れについて説明する。   Hereinafter, the flow of processing by the speech recognition error correction apparatus 100 will be described with reference to this flowchart.

まずステップS1において、外部からの起動信号の入力をトリガーとして、最尤ノード検出部141は、その時点で記憶されているノードデータにおいて最もスコアの高いノードを、最尤ノードとして検出する。この検出ノードで表される状態は、トレースバック開始時点の最尤状態である。   First, in step S1, using the input of an activation signal from the outside as a trigger, the maximum likelihood node detection unit 141 detects the node having the highest score in the node data stored at that time as the maximum likelihood node. The state represented by this detection node is the maximum likelihood state at the start of traceback.

次にステップS2において、トレースバック部142は、ステップS1において検出された最尤ノードから、前回のトレースバック処理で確定された時刻まで、トレースバックする。具体的には、トレースバック部142は、検出された最尤ノードに到達したパスについてWFST上の単語履歴を逆向きに(時間をさかのぼる方向に)たどり、前回のトレースバックで確定し、出力された単語系列の最後の入力単語ωkを求める。また、トレースバック部142は、対応する状態遷移(受理する単語がωkである状態遷移)を求める。そして、それらの単語および状態遷移に対応する確定時刻までトレースバックする。なお、トレースバック部142は、確定時刻記憶部148を参照し、その確定時刻記憶部148に格納されている確定時刻を、上記の最後の入力単語ωkに対応した確定時刻とする。
なお、受理単語がωである状態遷移の代わりに、出力遷移aにたどり着くまでトレースバックするようにしてもよい。
Next, in step S2, the traceback unit 142 traces back from the maximum likelihood node detected in step S1 to the time determined in the previous traceback process. Specifically, the traceback unit 142 traces the word history on the WFST in the reverse direction (in the direction of going back in time) for the path that has reached the detected maximum likelihood node, and confirms and outputs it in the previous traceback. Find the last input word ω k of the word sequence. Further, the traceback unit 142 obtains a corresponding state transition (a state transition in which the accepted word is ω k ). Then, trace back is performed until a fixed time corresponding to the word and the state transition. The traceback unit 142 refers to the fixed time storage unit 148 and sets the fixed time stored in the fixed time storage unit 148 as the fixed time corresponding to the last input word ω k described above.
Note that instead of the state transition in which the accepted word is ω k , the traceback may be performed until the output transition a P is reached.

次にステップS3において、原稿分割部143は、原稿を分割し、分割結果として得られた単語列をそれぞれ出力候補とする。具体的には、原稿分割部143は、今回トレースバックするパスの中で、2つの出力遷移間に挟まれたパス区間毎に原稿を分割する。そして、原稿分割部143は、得られたそれぞれの出力候補を、出力候補記憶部144に格納する。
なお、ここでの処理の方法として、出力遷移aにたどり着くまで逆向きに(つまり、時間を遡る方向に)進みながら、出力可能な出力遷移a(時間軸に沿ったL番目(ただしL>P)の出力遷移)を通過する度に原稿を分割してもよい。また、出力遷移aの側から出力可能な出力遷移aを通過する度に原稿を分割してもよい。
なお、出力可能な出力遷移aとは、出力遷移のシンボルが出力候補になるものであるが、後に、誤りスコア判別部146によって棄却される出力遷移(つまり、出力部150からは結局出力されない出力遷移)をも含んでいる。
In step S3, the original dividing unit 143 divides the original, and sets each word string obtained as a result of the division as an output candidate. Specifically, the document dividing unit 143 divides the document for each path section sandwiched between two output transitions in the path traced back this time. Then, the original dividing unit 143 stores the obtained output candidates in the output candidate storage unit 144.
Note that, as a processing method here, the output transition a L (Lth (but L) along the time axis) that can be output while proceeding in the reverse direction (that is, in the direction of going back in time) until the output transition a P is reached. The document may be divided every time it passes (> P) output transition). It is also possible to divide the original each time passing through the output transition a L can be output from the side of the output transition a P.
Note that the output transition a L that can be output is an output transition symbol that is an output candidate, but is an output transition that is later rejected by the error score determination unit 146 (that is, it is not output from the output unit 150 after all). Output transition).

次にステップS4において、誤りスコア算出部145は、出力候補の誤りスコアを算出する(ステップS4)。具体的には、誤りスコア算出部145は、式(7)によってチャンクot,k の誤りスコアE(チルダ)(ot,k )を算出する。 Next, in step S4, the error score calculation unit 145 calculates the error score of the output candidate (step S4). Specifically, the error score calculation unit 145 calculates the equation (7) by the chunk o t, k u of the error score E (tilde) (o t, k u).

次にステップS5において、誤りスコア判別部146は、出力候補のうちの一つを選択し、その出力候補に関して算出された誤りスコアが閾値T未満であるか否かを判別する。誤りスコアが閾値T未満である場合(ステップS5:YES)には、次のステップS6に進む。誤りスコアが閾値T以上である場合(ステップS5:NO)には、ステップS8に飛ぶ。   In step S5, the error score determination unit 146 selects one of the output candidates, and determines whether or not the error score calculated for the output candidate is less than the threshold value T. If the error score is less than the threshold T (step S5: YES), the process proceeds to the next step S6. If the error score is greater than or equal to the threshold T (step S5: NO), the process jumps to step S8.

次にステップS6に進んだ場合、誤りスコア判別部146は、WFSTのネットワーク上の当該パス区間(チャンク)の出力遷移を確定し、その出力シンボルを誤り修正結果として確定する。
次にステップS7において、誤りスコア判別部146は、今回確定した出力シンボルのデータを、確定出力記憶部147に書き込む。前述のとおり、確定出力記憶部147は後入れ先出しの構造を有するスタックである。
これらのステップS6およびS7の処理は、ステップS5における分岐制御により、現在のチャンクの誤りスコアが閾値T未満である場合のみに実行される。
When the process proceeds to step S6, the error score determination unit 146 determines the output transition of the path section (chunk) on the WFST network, and determines the output symbol as an error correction result.
In step S <b> 7, the error score determination unit 146 writes the output symbol data determined this time in the determined output storage unit 147. As described above, the definite output storage unit 147 is a stack having a last-in first-out structure.
The processes in steps S6 and S7 are executed only when the error score of the current chunk is less than the threshold T by the branch control in step S5.

次にステップS8に進むと、誤りスコア判別部146は、すべての出力候補を判別し終えたか否かを判断する。すべての出力候補の判別が終了している場合(ステップS8:YES)、次のステップS9に進む。すべての出力候補の判別が終了していない場合、すなわち依然として選択すべき出力候補がある場合(ステップS8:NO)、ステップS5に戻って次の出力候補を選択する。   Next, in step S8, the error score determination unit 146 determines whether or not all output candidates have been determined. If discrimination of all output candidates has been completed (step S8: YES), the process proceeds to the next step S9. If discrimination of all output candidates has not been completed, that is, if there are still output candidates to be selected (step S8: NO), the process returns to step S5 to select the next output candidate.

つまり、切り出されたすべての原稿に対応した各パス区間に対して算出された誤りスコアについての判定処理が終了した場合に、次のステップS9に進む。
ステップS9において、誤りスコア判別部146は、確定時刻記憶部148を更新する。つまり、誤りスコア判別部146は、スタックに積まれた出力シンボルに対応する確定単語の時刻が最も新しいものを今回のトレースバック処理で確定した確定時刻として確定時刻記憶部148に格納する。
That is, when the determination process for the error score calculated for each path section corresponding to all the cut out documents is completed, the process proceeds to the next step S9.
In step S9, the error score determination unit 146 updates the confirmed time storage unit 148. That is, the error score determination unit 146 stores, in the determination time storage unit 148, the determination time determined by the current traceback process as the determination time determined by the current traceback process, with the latest determination word corresponding to the output symbol stacked on the stack.

次にステップS10において、出力部150は、その時点で確定出力記憶部147に書き込まれている出力シンボルのデータを、確定出力記憶部147が空になるまで順次読み出し、出力する。これにより、スタックに積まれていたすべての出力データは、出力される。なお、出力部150は、WFSTのネットワークの前方側に配置された原稿から順に(つまり、時刻の早い側から順に)出力する。   Next, in step S10, the output unit 150 sequentially reads and outputs the output symbol data written in the finalized output storage unit 147 at that time until the finalized output storage unit 147 becomes empty. As a result, all the output data loaded on the stack is output. Note that the output unit 150 outputs the document sequentially from the document placed on the front side of the WFST network (that is, sequentially from the earlier time side).

つまり、出力部150は、毎回のトレースバック処理でスタックに積んだデータを、確定された原稿として逐次出力する。このとき、音声認識結果のうち、所定のパス区間の誤りスコアが閾値T以上である場合、信頼度が低いパスなので、当該パス区間の出力遷移の出力シンボルは、誤り修正結果としては採用されない。したがって、出力部150は、そのような信頼度の低いパス区間の出力シンボルを、出力しない。   That is, the output unit 150 sequentially outputs the data accumulated on the stack in each traceback process as a confirmed document. At this time, if the error score of a predetermined path section is equal to or greater than the threshold T among the speech recognition results, the output symbol of the output transition of the path section is not adopted as the error correction result because the path has low reliability. Accordingly, the output unit 150 does not output an output symbol in such a path section with low reliability.

ステップS10の処理が終了すると、音声認識誤り修正装置100は、このフローチャート全体の処理を終了する。   When the process of step S10 ends, the speech recognition error correction apparatus 100 ends the process of the entire flowchart.

[10.字幕文出力の具体例と評価]
以上、説明したように、本実施形態による音声認識誤り修正装置100の処理の特徴は、(1)文をチャンクに分割すること、(2)チャンクの終端に出力遷移を設けること、(3)出力遷移の箇所からトレースバックすること、である。このような特徴的な処理をすることによる作用を、具体的な処理例とともに、次に説明する。
[10. Specific examples and evaluation of subtitle text output]
As described above, the features of the processing of the speech recognition error correction apparatus 100 according to the present embodiment are (1) dividing a sentence into chunks, (2) providing an output transition at the end of the chunk, (3) Trace back from the location of the output transition. The effect | action by performing such a characteristic process is demonstrated below with a specific process example.

図6は、本実施形態による字幕文出力の確定方法の実例を示す概略図である。同図の(A)および(B)は、それぞれ、入力される認識結果の単語列と、それらの単語に対応するWFSTの状態遷移と、その結果としての出力シンボルとの関係を示し、また算出される誤りスコアを付記している。   FIG. 6 is a schematic diagram illustrating an example of a subtitle sentence output determination method according to the present embodiment. (A) and (B) in the figure respectively show the relationship between the input recognition result word string, the WFST state transition corresponding to those words, and the resulting output symbols, and the calculation. The error score to be added is added.

まず、同図(A)の例において、入力される単語列は「今日/の/関東/地域/は」である。これらの単語を受け付けると、WFSTは、次のように遷移する。即ち、始端からスタートして、入力単語「今日」は、対応する原稿内の「今日」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「の」は、対応する原稿内の「の」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「関東」は、対応する原稿内の「関東」にマッチして、ペナルティの無い状態遷移が起こる。次の単語「地域」は、発話者による読み替えまたは音声認識装置220による認識誤りにより入力された単語である。したがって、対応する原稿内の「地方」にはマッチせず、置換の状態遷移が起こる。次の単語「は」は、対応する原稿内の「は」にマッチして、ペナルティの無い状態遷移が起こる。そして、「晴れ」と「です」は入力されていないが、脱落の状態遷移が起こると、黒四角で示すチャンクの終端の状態にたどり着く。そして、出力遷移における出力シンボルである「今日の関東地方は晴れです。」が、出力候補となる。ここで、このチャンクに関する誤り率は3/7である。即ち、誤りスコアは、3/7である。閾値Tを0.5とする場合、この誤りスコアは閾値Tよりも小さい。そして、音声認識誤り修正装置100は、出力候補である「今日の関東地方は晴れです。」の出力を確定することができる。   First, in the example of FIG. 5A, the input word string is “today / no / kanto / region / ha”. When these words are accepted, the WFST transitions as follows. That is, starting from the beginning, the input word “today” matches “today” in the corresponding document, and a state transition without penalty occurs. The next word “NO” matches “NO” in the corresponding manuscript, and a state transition without a penalty occurs. The next word “Kanto” matches “Kanto” in the corresponding manuscript and a state transition without penalty occurs. The next word “region” is a word that is input due to a replacement by the speaker or a recognition error by the speech recognition device 220. Therefore, the “region” in the corresponding manuscript does not match and a replacement state transition occurs. The next word “ha” matches “ha” in the corresponding document, and a state transition without penalty occurs. “Sunny” and “Is” are not input, but when a dropout state transition occurs, the end state of the chunk indicated by the black square is reached. The output symbol “Today's Kanto region is clear”, which is an output symbol in the output transition, is an output candidate. Here, the error rate for this chunk is 3/7. That is, the error score is 3/7. When the threshold value T is 0.5, this error score is smaller than the threshold value T. Then, the speech recognition error correction apparatus 100 can determine the output of “Today's Kanto region is sunny”, which is an output candidate.

次に、同図(B)の例で示すWFSTのネットワークにおいては、一連の区間が、abcdefのチャンクと、ghijkのチャンクとに分割されている。そして、各チャンクの終端に、出力遷移が設けられている。そして、入力される単語列はabcxeyghである。これらの単語を受け付けると、WFSTは、次のように遷移する。即ち、始端からスタートして、入力単語a,b,cのそれぞれは、対応する原稿内のa,b,cにマッチして、これらの単語の各々に関するペナルティの無い状態遷移が起こる。次の入力単語xについては、原稿内の単語dの置換の状態遷移が起こる。次の入力単語eは、原稿内のeにマッチして、ペナルティの無い状態遷移が起こる。そして、次の入力単語yについては、原稿内の単語fの置換の状態遷移が起こる。その遷移先がチャンクの終端の状態であり、その次の出力遷移における出力シンボルがabcdefである。ここまでのチャンクの誤りスコアは、2/6である(正常な状態遷移が4つで、置換の状態遷移が2つなので、2/(4+2))。   Next, in the WFST network shown in the example of FIG. 5B, a series of sections is divided into abcdef chunks and ghijk chunks. An output transition is provided at the end of each chunk. The input word string is abcxeyegh. When these words are accepted, the WFST transitions as follows. That is, starting from the beginning, each of the input words a, b, and c matches a, b, and c in the corresponding manuscript, and a state transition without penalty for each of these words occurs. For the next input word x, a state transition of replacement of the word d in the document occurs. The next input word e matches e in the manuscript, and a state transition without penalty occurs. Then, for the next input word y, the state transition of replacement of the word f in the document occurs. The transition destination is the end state of the chunk, and the output symbol in the next output transition is abcdef. The chunk error score so far is 2/6 (because there are 4 normal state transitions and 2 replacement state transitions, 2 / (4 + 2)).

続いて同図(B)内で、入力単語g,hのそれぞれは、対応する原稿内のg,hにマッチして、これらの単語の各々に関するペナルティの無い状態遷移が起こる。ここで入力単語列は終わるが、対応する原稿内のi,j,kについては脱落の状態遷移が起こり得る。ここで、原稿内のghijkの列の区間だけについて謝り率は3/5であり、閾値T(=0.5)を超えている。何故なら、g,hが入力にマッチして、i,j,kが脱落しているからである。しかしながら、式(9)によって計算される誤りスコアは、前のチャンクにおける誤りスコアとの加重平均(チャンク内の単語数による加重平均)をとって、5/11である。この誤りスコア5/11は閾値Tより小さい。したがって、音声認識誤り修正装置100は、出力候補abcdefを出力するとともに、次のチャンクに対応する出力候補ghijkをも出力する。   Subsequently, in FIG. 5B, each of the input words g and h matches g and h in the corresponding manuscript, and a state transition without penalty for each of these words occurs. Here, the input word string ends, but o, j, k in the corresponding manuscript may be dropped. Here, the apology rate is only 3/5 for the section of the ghijk column in the document, which exceeds the threshold T (= 0.5). This is because g, h match the input and i, j, k are missing. However, the error score calculated by the equation (9) is 5/11 by taking a weighted average (weighted average based on the number of words in the chunk) with the error score in the previous chunk. This error score 5/11 is smaller than the threshold value T. Therefore, the speech recognition error correction apparatus 100 outputs the output candidate abcdef and also outputs the output candidate ghijk corresponding to the next chunk.

同図(A)の例によって示した通り、音声認識誤り修正装置100は、単語「は」より後の入力単語が仮にすべて誤っていた(音声認識装置220による認識誤りなど)としても、早期に対応する字幕文を出力することができる。これは、単語「は」より後の入力単語がすべて誤っていたとしても誤りスコアが閾値Tより小さいためである。
また、同図(B)の例によって示した通り、予めチャンクを分割しておいた場合には、式(9)の作用で、現在着目するチャンクの、前方の確定済のチャンクの誤りスコアを利用することによって、さらに早期に、現在着目するチャンクの出力を確定できる。
As shown in the example of FIG. 5A, the speech recognition error correction apparatus 100 can detect the input word after the word “ha” all wrong (eg, recognition error by the speech recognition apparatus 220) at an early stage. The corresponding subtitle sentence can be output. This is because the error score is smaller than the threshold T even if all input words after the word “ha” are incorrect.
Further, as shown in the example of FIG. 5B, when the chunk is divided in advance, the error score of the chunk that has been confirmed ahead of the currently focused chunk is obtained by the action of the equation (9). By using this, it is possible to determine the output of the currently focused chunk even earlier.

[11.誤りスコアに関する閾値Tの決め方]
もし音声認識装置の認識精度が90%くらいであれば、誤りスコアの基礎となる単語の誤り率は10%程度になる可能性がある。本実施形態で誤りスコア判別部146による判別に用いるための閾値Tとしては、音声認識の認識精度に応じて、単語一致率の信頼度分だけマージンを取って設定することが好ましい。ここで、単語一致率の信頼度は、WFSTのネットワークの2つの出力遷移間の単語数に依存する。
[11. How to determine threshold T for error score]
If the recognition accuracy of the speech recognition apparatus is about 90%, the error rate of the word that is the basis of the error score may be about 10%. In this embodiment, the threshold T used for determination by the error score determination unit 146 is preferably set with a margin corresponding to the reliability of the word matching rate according to the recognition accuracy of speech recognition. Here, the reliability of the word match rate depends on the number of words between two output transitions of the WFST network.

閾値Tを設定するためのその他の要因としては、原稿テキスト記憶装置200に記憶される原稿の候補の文章としての重なりがどのくらいの割合であるのかという点がある。例えば、下記(E1)〜(E3)に示す文の場合、文章としての重なりが80%くらいの割合で含まれている。
(E1) 今日 の 天気 は 晴れ です
(E2) 今日 の 天気 は 雨 です
(E3) 今日 の 天気 は 曇り です
このような場合、閾値Tも80%くらいに設定してしまうと、所望の動きが実現できない。
As another factor for setting the threshold value T, there is a ratio of the overlapping of the candidate document sentences stored in the document text storage device 200 as a ratio. For example, in the case of sentences shown in (E1) to (E3) below, overlapping as sentences is included at a rate of about 80%.
(E1) Today's weather is sunny (E2) Today's weather is rainy (E3) Today's weather is cloudy In this case, if the threshold T is set to about 80%, the desired movement will be realized Can not.

なお、ニュース原稿の文を適切にチャンクに分割して出力遷移を配置し、閾値Tを50%とした条件で実験した場合、良好に動作することが確認できた。   It was confirmed that when the test was performed under the condition that the sentence of the news manuscript was appropriately divided into chunks and the output transitions were arranged and the threshold T was 50%, it was confirmed that the operation was good.

以上説明したように、本実施形態に係る音声認識誤り修正装置100は、文の順序は変わり得るとは言え、原則として、原稿テキストに含まれる文が連続して発声されるという拘束を利用して、認識結果と原稿テキストとを対応付けることで、認識誤りを修正することができる。つまり、従来技術によるブロック照合方式の自動修正誤りを解消する。   As described above, the speech recognition error correction apparatus 100 according to the present embodiment uses the constraint that the sentences included in the manuscript text are continuously uttered in principle although the order of the sentences can be changed. Thus, the recognition error can be corrected by associating the recognition result with the original text. That is, the automatic correction error of the block matching method according to the prior art is solved.

また、本実施形態による音声認識誤り修正装置100は、認識単語の単語列が原稿テキスト内に含まれる単語列のどこと一番マッチしているのかを、従来技術による方式より長い範囲で照合している。つまり、従来のブロック照合方式が単語連鎖ブロックに相当する区間だけを照合するのに対して、音声認識誤り修正装置100は、原稿の文章を遡りながらもっと長い文章全体で照合する。そのため、どこでマッチさせるのがよいのかが従来よりも明白に分かり、自動修正誤りを従来よりも低減できる。   In addition, the speech recognition error correction apparatus 100 according to the present embodiment collates the word string of the recognized word most closely with the word string included in the manuscript text in a longer range than the conventional technique. ing. That is, while the conventional block collation method collates only the section corresponding to the word chain block, the speech recognition error correction apparatus 100 collates the entire longer sentence while tracing the sentence of the document. Therefore, it is clearly known where to make the match, and automatic correction errors can be reduced more than before.

本実施形態による音声認識誤り修正装置100は、文を複数のチャンクに分割し、チャンクの終端に出力遷移を設けている。これにより、文の途中であっても、確定させた単語列を出力することができる。   The speech recognition error correction apparatus 100 according to the present embodiment divides a sentence into a plurality of chunks and provides an output transition at the end of the chunk. As a result, the confirmed word string can be output even in the middle of the sentence.

また、本実施形態による音声認識誤り修正装置100は、出力遷移が存在する箇所のみからトレースバックするように限定した。これにより、計算量を抑制することができる。   Further, the speech recognition error correction apparatus 100 according to the present embodiment is limited to trace back only from a place where an output transition exists. Thereby, the amount of calculation can be suppressed.

なお、上述した実施形態における音声認識誤り修正装置、原稿テキスト記憶装置、音声認識装置、トランスデューサー構築装置の機能をコンピューターで実現するようにしても良い。その場合、これらの機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Note that the functions of the speech recognition error correction device, the document text storage device, the speech recognition device, and the transducer construction device in the above-described embodiment may be realized by a computer. In that case, the program for realizing these functions may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, a “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory inside a computer system serving as a server or a client in that case may be included, and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system.

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。また、複数の変形例を組み合わせて実施しても良い。   Although the embodiment has been described above, the present invention can also be implemented in the following modified example. Moreover, you may implement combining a some modification.

[変形例1]音声認識誤り修正装置の構成
音声認識誤り修正装置100が、内部にトランスデューサー構築装置240を備えるようにしてもよい。
[Modification 1] Configuration of Speech Recognition Error Correction Device The speech recognition error correction device 100 may include a transducer construction device 240 therein.

[変形例2]言い換えを受理するWFSTの構築
WFSTの情報源となるアナウンス用原稿には、それが読まれるときに、読み飛ばされる句や、言い換えられる句、補足される句が含まれている場合がある。これらの一部には、定型で高い頻度で省略/言い換え/補足が行われる。例えば、ニュース番組の原稿では、取材元を表す「警視庁によりますと」などといった句は、読み飛ばされやすいことの多い句である。このような句が読み飛ばされたとしても、ニュース主文の文意に変わりはなく、言い換えればいわゆる5W1Hに関する変化はなく、ニュース番組としての実用上の問題はない。
[Modification 2] Construction of WFST that accepts paraphrasing An announcement manuscript that is an information source of WFST includes phrases that are skipped when read, paraphrased phrases, and supplemented phrases There is a case. Some of these are regularly omitted and paraphrased / supplemented with high frequency. For example, in a news program manuscript, phrases such as “according to the Metropolitan Police Department” representing the interview source are often skipped. Even if such a phrase is skipped, there is no change in the meaning of the main text of the news, in other words, there is no change regarding so-called 5W1H, and there is no practical problem as a news program.

本変形例では、このような定型的な言い回しのバリエーションをWFSTに追加しておくことで、精度よく修正結果を出力できるようにする。上記の言い回しのバリエーションの追加は、原稿から構築したWFSTとは別に、言い回しのバリエーションを追加するための別のWFSTを構築しておき、原稿から構築したWFSTと合成することにより、効率よく行うことができる。なお、WFSTの合成や、最小化や、決定化などを行うための公知のアルゴリズムを適用することができる。   In the present modification, such a standard phrase variation is added to the WFST so that the correction result can be output with high accuracy. The addition of the above-mentioned wording variations is performed efficiently by constructing another WFST for adding wording variations separately from the WFST constructed from the manuscript and combining it with the WFST constructed from the manuscript. Can do. A known algorithm for performing WFST synthesis, minimization, determinization, or the like can be applied.

上記のような言い換え例を含んだWFSTを構築するためには、過去の同種の番組の原稿テキストと、実際に読み上げられた単語列との差分を分析し、頻度が高く、且つ言い換えによって文意に変更がないものを予め選別して収集しておく。そして、この選別された言い換え例ごとに、言い換えを合成するためのWFSTを構築しておき、原稿から構築したWFSTと、言い換え例のWFSTとを合成する演算(既存技術による演算)を施すことにより、言い換えに対応可能なWFSTを構築することができる。   In order to construct a WFST including the above paraphrasing example, the difference between the original text of the same type of program in the past and the word string actually read out is analyzed, and the frequency is high and the meaning of the text is determined by paraphrasing. Select and collect items that do not change in advance. Then, for each selected paraphrase example, a WFST for synthesizing the paraphrase is constructed, and an operation (computation based on the existing technology) for synthesizing the WFST constructed from the original and the WFST of the paraphrase example is performed In other words, a WFST that can be used in other words can be constructed.

[変形例3]認識結果への付加
音声認識の結果では得られない記号等(句点や、読点や、その他の記号等)を、出力状態遷移における出力シンボル内に含めるようにしても良い。例えば、ニュース原稿に予めそれらの記号等を含めておき、そのニュース原稿に基づいてWFSTを構築するときに、出力シンボル内にそれらの記号等が残るようにする。そのようなWFSTを用いて音声認識誤り修正装置100を稼働させることにより、それらの記号等を含んだ読みやすい字幕を出力することができる。
[Modification 3] Addition to Recognition Result Symbols that cannot be obtained as a result of speech recognition (punctuation marks, reading marks, other symbols, etc.) may be included in the output symbols in the output state transition. For example, those symbols and the like are previously included in the news manuscript, and when the WFST is constructed based on the news manuscript, the symbols and the like remain in the output symbol. By operating the speech recognition error correction apparatus 100 using such WFST, it is possible to output easy-to-read subtitles including those symbols and the like.

[変形例4]認識結果に対応するその他の出力(多言語字幕)
上記の変形例3に加え、出力遷移における出力シンボルとして、原稿のテキストを他国語等に翻訳した結果の単語列を用いても良い。これにより、読み上げられた元の原稿とは異なる言語での字幕を出力することができる。また、複数のWFSTを同時に並行して稼働させることにより、複数ヶ国語の字幕を出力することもできる。また、出力遷移における出力シンボルとして、番組の進行をコントロールするためのキューに相当する記号を含めるようにしても良い。このキューが出力されることをトリガーとして、ハイブリッドキャストなどの番組連動サービスに対して、起動や場面転換等の指示情報を与えることもできる。これにより、より多彩な放送サービスを実現することができる。
[Modification 4] Other output corresponding to the recognition result (multilingual subtitles)
In addition to the third modification described above, a word string obtained as a result of translating the text of a document into another language or the like may be used as an output symbol in output transition. Thereby, it is possible to output subtitles in a language different from that of the original document read out. Also, subtitles in a plurality of languages can be output by operating a plurality of WFSTs in parallel. Further, a symbol corresponding to a queue for controlling the progress of a program may be included as an output symbol in the output transition. With the output of this queue as a trigger, it is possible to give instruction information such as start-up and scene change to a program-linked service such as hybrid cast. As a result, more various broadcasting services can be realized.

[変形例5]WFSTの最小化
本変形例では、WFSTを作成する際に、可能であればWFSTの最小化を行う。WFSTの最小化とは、与えられた状態遷移図において、集約可能な複数の状態(ノード)を集約したり、集約可能な複数の状態遷移(枝)を集約したりすることである。WFSTを集約すること自体は、既存技術によって行うことができる。WFSTの最小化の一例は次の通りである。即ち、WFSTのネットワークにおいて、共通する複数の部分ネットワークを同一の状態遷移の列として構成し直す。このようなWFSTの最小化を用いることにより、共通する単語列についての状態遷移を削減することができる。例えば、同じ接頭辞を有する単語列(文)を同一の遷移で共有できる。これにより、演算量を削減することができる。
[Modification 5] Minimization of WFST In this modification, when creating a WFST, the WFST is minimized if possible. The minimization of WFST is to aggregate a plurality of states (nodes) that can be aggregated or to aggregate a plurality of state transitions (branches) that can be aggregated in a given state transition diagram. Aggregating WFST itself can be performed by existing technology. An example of WFST minimization is as follows. That is, in the WFST network, a plurality of common partial networks are reconfigured as the same state transition sequence. By using such WFST minimization, state transitions for common word strings can be reduced. For example, word strings (sentences) having the same prefix can be shared by the same transition. Thereby, the amount of calculation can be reduced.

[変形例6]WFSTの決定化
WFSTを作成する際に、必要があればWFSTの決定化を行う。具体的には、WFSTのネットワークにおいて、状態遷移の途中で、出力シンボルが決定する場合には、少しでも早く推定結果を出力するために、出力文の位置を前のほうに変更する。WFSTの決定化を行うことにより、例えば、接頭辞がユニークとなる遷移に出力文を移動する。これにより、出力文を旱期に確定できるようになるなどの利点がある。ただし、WFSTを作成する際にWFSTの決定化を行った場合、原稿探索部140による最尤仮説の探索処理でも対応できるように設定変更が必要である。つまり、WFSTの決定化を行わない場合に比べて、誤りスコアを計算するためのパス区間を出力遷移の前後にシフトさせる必要がある。加えて、前後のパス区間の伸縮分を吸収できるように、閾値Tをより厳しい値(誤り率がより小さい値)に設定する必要がある。
[Modification 6] Determining the WFST When creating the WFST, the WFST is determinized if necessary. Specifically, in the WFST network, when an output symbol is determined during the state transition, the position of the output sentence is changed to the front in order to output the estimation result as soon as possible. By determinizing the WFST, for example, the output sentence is moved to a transition with a unique prefix. This has the advantage that the output sentence can be finalized in the long term. However, if the WFST is determinized when creating the WFST, it is necessary to change the setting so that the search process of the maximum likelihood hypothesis by the manuscript search unit 140 can also cope. In other words, it is necessary to shift the path interval for calculating the error score before and after the output transition as compared with the case where WFST is not determinized. In addition, it is necessary to set the threshold T to a stricter value (a value with a smaller error rate) so that the expansion and contraction of the preceding and following path sections can be absorbed.

[変形例7]誤りスコアの求め方
本実施形態では、式(9)に示した誤り率(編集距離)に基づいて誤りスコアを計算した。これに限らず、原稿と認識結果の一致率、一致精度、脱落率、挿入率を利用したり、それらを併用したりすることによって、誤りスコアを算出するようにしても良い。
[Modification 7] How to Find Error Score In this embodiment, an error score is calculated based on the error rate (edit distance) shown in Equation (9). However, the present invention is not limited to this, and the error score may be calculated by using the matching rate, matching accuracy, dropout rate, and insertion rate of the document and the recognition result, or using them together.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明は、音声認識結果を利用した字幕等のコンテンツの作成に利用することができる。本発明は、例えば、放送事業や、その他のコンテンツ提供事業において、利用することが可能である。   The present invention can be used to create content such as subtitles using a speech recognition result. The present invention can be used in, for example, a broadcasting business and other content providing businesses.

100 音声認識誤り修正装置
110 WFST記憶部(有限状態トランスデューサー情報記憶部)
120 ノードデータ更新部
130 ノードデータ記憶部
140 原稿探索部
141 最尤ノード検出部
142 トレースバック部
143 原稿分割部
144 出力候補記憶部
145 誤りスコア算出部
146 誤りスコア判別部
147 確定出力記憶部
148 確定時刻記憶部
150 出力部
200 原稿テキスト記憶装置
220 音声認識装置
240 トランスデューサー構築装置
241 単語ネットワーク登録部
242 編集ネットワーク登録部
100 Speech recognition error correction device 110 WFST storage unit (finite state transducer information storage unit)
120 Node data update unit 130 Node data storage unit 140 Document search unit 141 Maximum likelihood node detection unit 142 Traceback unit 143 Document division unit 144 Output candidate storage unit 145 Error score calculation unit 146 Error score determination unit 147 Final output storage unit 148 Determination Time storage unit 150 Output unit 200 Document text storage device 220 Speech recognition device 240 Transducer construction device 241 Word network registration unit 242 Editing network registration unit

Claims (3)

原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、
前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、
前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、
処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、
前記原稿探索部によって求められた前記確定出力を出力する出力部と、
を具備する音声認識誤り修正装置であって、
前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、前記原稿テキストに含まれる文を複数のチャンクに分割し、前記チャンクに含まれる単語を入力シンボルとして受理する状態遷移のパスの後に前記出力遷移を設けた前記有限状態トランスデューサーの、前記状態に関する情報および前記状態遷移に関する情報を記憶する、
ことを特徴とする音声認識誤り修正装置。
Corresponding to the manuscript text, it is a finite state transducer that sequentially transitions while accepting words input as speech recognition results, and transitions while accepting errors in words contained in the speech recognition results A finite state transducer information storage unit for storing information about the state of the finite state transducer to be performed and information including a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition When,
A node data storage unit for storing a score representing the likelihood of the state in the finite state transducer;
While receiving an input of a recognition word that is a speech recognition result corresponding to the document text from outside, according to the received recognition word, a score at the time for each state in the finite state transducer is calculated, A node data update unit that updates the node data storage unit using the calculated score;
When an activation signal indicating the start of processing is received from the outside, the node data storage unit is referred to determine the maximum likelihood node at that time and refer to the finite state transducer information storage unit and the node data storage unit Then, by tracing back the state transition to the maximum likelihood node, a traceback process is performed up to a predetermined time when the state transition has been confirmed, and the path of the state transition subjected to the traceback process is set as an output candidate and output. With respect to the candidate path, an error score is calculated according to a ratio in which the state transition related to the error is included in the path, and the error score is smaller than a predetermined threshold based on the calculated error score. A manuscript search unit that uses a path output candidate as a final output;
An output unit for outputting the determined output obtained by the document search unit;
A speech recognition error correction apparatus comprising:
The finite state transducer information storage unit stores an output transition where the output symbol is a non-empty state transition as a part of the state transition, and stores sentences included in the original text in a plurality of chunks. Storing information related to the state and information related to the state transition of the finite state transducer that is divided and accepts the words included in the chunk as an input symbol after the state transition path.
A speech recognition error correction apparatus characterized by the above.
前記原稿探索部は、前記チャンクごとに前記誤りスコアを算出するとともに、前記チャンクごとの前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に、当該チャンクに対応する前記出力遷移の出力シンボルを、前記確定出力とするものであり、且つ、前記原稿探索部は、前記チャンクごとの前記誤りスコアを算出する際に、当該チャンクと当該チャンクの直前のチャンクの区間に関して前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを、当該チャンクの誤りスコアとして算出する、
ことを特徴とする請求項1に記載の音声認識誤り修正装置。
The document search unit calculates the error score for each chunk and outputs the output transition corresponding to the chunk when the error level is smaller than a predetermined threshold based on the error score for each chunk. When the symbol is used as the definite output and the document search unit calculates the error score for each chunk, state transition related to the error with respect to the chunk and a section of the chunk immediately before the chunk An error score corresponding to the percentage of the error is calculated as the error score of the chunk.
The speech recognition error correction apparatus according to claim 1.
原稿テキストに対応して、音声認識結果として入力される単語を順次受理しながら状態遷移していく有限状態トランスデューサーであって、前記音声認識結果に含まれる単語の誤りをも受理しながら状態遷移していく前記有限状態トランスデューサーの、状態に関する情報、および状態遷移に関して遷移元状態と遷移先状態と入力シンボルと出力シンボルと遷移重みとを含む情報、とを記憶する有限状態トランスデューサー情報記憶部と、
前記有限状態トランスデューサーにおける前記状態の尤度を表すスコアを記憶するノードデータ記憶部と、
前記原稿テキストに対応する音声の認識結果である認識単語の入力を外部から受け付けるとともに、受け付けた前記認識単語に応じて、前記有限状態トランスデューサーにおける前記状態ごとの当該時刻でのスコアを算出し、算出された前記スコアを用いて前記ノードデータ記憶部を更新するノードデータ更新部と、
処理開始を示す起動信号を外部から受け付けると、ノードデータ記憶部を参照することにより、その時点における最尤ノードを決定するとともに、前記有限状態トランスデューサー情報記憶部と前記ノードデータ記憶部とを参照して、前記最尤ノードまでの状態遷移を遡ることにより、状態遷移が確定済みの所定の時刻までのトレースバック処理を行い、当該トレースバック処理した状態遷移のパスを出力候補とするとともに、出力候補となった前記パスに関して、当該パスに前記誤りに関する状態遷移が含まれる割合に応じた誤りスコアを算出し、算出された前記誤りスコアに基づいて誤りの度合いが所定の閾値より小さい場合に当該パスの出力候補を、確定出力とする原稿探索部と、
前記原稿探索部によって求められた前記確定出力を出力する出力部と、
を具備する音声認識誤り修正装置であって、
前記有限状態トランスデューサー情報記憶部は、出力シンボルが空でない状態遷移であるところの出力遷移を前記状態遷移の一部として含んで記憶しており、
前記原稿探索部は、前記出力遷移の遷移元状態に対応するノードの中で最尤であるノードをその時点における前記最尤ノードとして決定する、
ことを特徴とする音声認識誤り修正装置。
Corresponding to the manuscript text, it is a finite state transducer that sequentially transitions while accepting words input as speech recognition results, and transitions while accepting errors in words contained in the speech recognition results A finite state transducer information storage unit for storing information about the state of the finite state transducer to be performed and information including a transition source state, a transition destination state, an input symbol, an output symbol, and a transition weight regarding the state transition When,
A node data storage unit for storing a score representing the likelihood of the state in the finite state transducer;
While receiving an input of a recognition word that is a speech recognition result corresponding to the document text from outside, according to the received recognition word, a score at the time for each state in the finite state transducer is calculated, A node data update unit that updates the node data storage unit using the calculated score;
When an activation signal indicating the start of processing is received from the outside, the node data storage unit is referred to determine the maximum likelihood node at that time and refer to the finite state transducer information storage unit and the node data storage unit Then, by tracing back the state transition to the maximum likelihood node, a traceback process is performed up to a predetermined time when the state transition has been confirmed, and the path of the state transition subjected to the traceback process is set as an output candidate and output. With respect to the candidate path, an error score is calculated according to a ratio in which the state transition related to the error is included in the path, and the error score is smaller than a predetermined threshold based on the calculated error score. A manuscript search unit that uses a path output candidate as a final output;
An output unit for outputting the determined output obtained by the document search unit;
A speech recognition error correction apparatus comprising:
The finite state transducer information storage unit stores an output transition where the output symbol is a non-empty state transition as a part of the state transition;
The manuscript search unit determines a node having the maximum likelihood among the nodes corresponding to the transition source state of the output transition as the maximum likelihood node at that time point.
A speech recognition error correction apparatus characterized by the above.
JP2014170540A 2014-08-25 2014-08-25 Speech recognition error correction device Active JP6358744B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014170540A JP6358744B2 (en) 2014-08-25 2014-08-25 Speech recognition error correction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014170540A JP6358744B2 (en) 2014-08-25 2014-08-25 Speech recognition error correction device

Publications (2)

Publication Number Publication Date
JP2016045414A JP2016045414A (en) 2016-04-04
JP6358744B2 true JP6358744B2 (en) 2018-07-18

Family

ID=55636013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014170540A Active JP6358744B2 (en) 2014-08-25 2014-08-25 Speech recognition error correction device

Country Status (1)

Country Link
JP (1) JP6358744B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151020A (en) * 2019-06-28 2020-12-29 北京声智科技有限公司 Voice recognition method and device, electronic equipment and storage medium
CN110610700B (en) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 Decoding network construction method, voice recognition method, device, equipment and storage medium
CN113468871A (en) * 2021-08-16 2021-10-01 北京北大方正电子有限公司 Text error correction method, device and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5478478B2 (en) * 2010-12-15 2014-04-23 日本放送協会 Text correction apparatus and program

Also Published As

Publication number Publication date
JP2016045414A (en) 2016-04-04

Similar Documents

Publication Publication Date Title
CN107657947B (en) Speech processing method and device based on artificial intelligence
JP4580885B2 (en) Scene information extraction method, scene extraction method, and extraction apparatus
CN109635270B (en) Bidirectional probabilistic natural language rewrite and selection
CN107305541B (en) Method and device for segmenting speech recognition text
US8275618B2 (en) Mobile dictation correction user interface
CN106570180B (en) Voice search method and device based on artificial intelligence
US20060149551A1 (en) Mobile dictation correction user interface
WO1998025216A1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
CA3158353A1 (en) Audio-outputting method and system thereof
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP6406988B2 (en) Speech recognition error correction device
JP5296598B2 (en) Voice information extraction device
JP6358744B2 (en) Speech recognition error correction device
JP6327745B2 (en) Speech recognition apparatus and program
JP4528705B2 (en) Character recognition device and character recognition method
JP2005167452A (en) Video scene interval information extracting method, apparatus, program, and recording medium with program recorded thereon
JP3938096B2 (en) Index creation device, index creation method, and index creation program
CN113225612B (en) Subtitle generating method, device, computer readable storage medium and electronic equipment
US20200364402A1 (en) Method and apparatus for improved automatic subtitle segmentation using an artificial neural network model
JP6508808B2 (en) Speech recognition error correction device
JP6232282B2 (en) Speech recognition error correction device
JP2004302175A (en) System, method, and program for speech recognition
KR102592630B1 (en) Simultaneous interpretation system and method using translation unit band corpus
JP2008241970A (en) Speaker adaptation device, speaker adaptation method and speaker adaptation program
CN112201225B (en) Corpus acquisition method and device, readable storage medium and electronic equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180618

R150 Certificate of patent or registration of utility model

Ref document number: 6358744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250