JP2009210747A - 関連文書選択出力装置及びそのプログラム - Google Patents

関連文書選択出力装置及びそのプログラム Download PDF

Info

Publication number
JP2009210747A
JP2009210747A JP2008052765A JP2008052765A JP2009210747A JP 2009210747 A JP2009210747 A JP 2009210747A JP 2008052765 A JP2008052765 A JP 2008052765A JP 2008052765 A JP2008052765 A JP 2008052765A JP 2009210747 A JP2009210747 A JP 2009210747A
Authority
JP
Japan
Prior art keywords
word
document
speech
related document
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008052765A
Other languages
English (en)
Other versions
JP4809857B2 (ja
Inventor
Shinichi Honma
真一 本間
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2008052765A priority Critical patent/JP4809857B2/ja
Publication of JP2009210747A publication Critical patent/JP2009210747A/ja
Application granted granted Critical
Publication of JP4809857B2 publication Critical patent/JP4809857B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、正しい情報が記載された関連文書を、人手によらずに、迅速、かつ、正確に選択して出力する関連文書選択出力装置を提供する。
【解決手段】関連文書選択出力装置3は、文書集合Dに含まれる単語の出現頻度・逆出現頻度を予め算出し、文書d毎に、単語と単語の出現頻度・逆出現頻度とを対応付けて文書dの内容を示す文書ベクトルVを生成する文書ベクトル生成手段31と、音声単語が文書集合Dに出現する頻度を算出し、音声単語と音声単語の頻度とを対応付けて音声単語列の内容を示す単語ベクトルWを生成する単語ベクトル生成手段32と、単語ベクトルWに対する全ての文書ベクトルVの距離を予め設定した距離尺度に基づいて算出し、距離が最短となる文書ベクトルVが示す文書を関連文書として選択する関連文書選択手段33と、関連文書出力手段37と、を備える。
【選択図】図2

Description

本発明は、音声を音声認識して字幕表示するときに、音声認識誤りの修正作業を支援する関連文書選択出力装置及びそのプログラムに関する。
従来から、アナウンサがニュース原稿等の文書を読み上げる音声を音声認識して字幕を生成し、この字幕をリアルタイムでニュース番組等の放送番組に付加することが行われている。ここで、音声認識の精度は重要な要素となるため、この精度を向上させる技術が知られている(例えば、非特許文献1,2参照)。
近年、音声認識の精度は著しく向上しているが、音声認識した字幕に音声認識誤りが含まれることがある。このため、アナウンサが文書を読み上げてから字幕を放送番組に付加するまでに数秒間の余裕を持たせる。そして、字幕に音声認識誤りが含まれる場合、この数秒間で、オペレータが字幕の音声認識誤りを修正し、その後、修正された字幕を放送番組に付加している。
音声認識誤りと未知語に頑健な音声文字検索手法,西崎 博光他、電子情報通信学会論文誌,No.10 pp.1369−1381,2003年10月 話し言葉による音声対話システム,河原 達也,IPSF Magazine Vol.45,No.10,Oct.2004
しかし、この数秒間で、オペレータが、音声認識誤りを判断すると共に、修正のために正しい情報を捜し出す必要があるため、この修正作業が間に合わない場合もあり、オペレータによる修正作業を支援してほしいとの強い要望がある。一般に、音声認識装置は、大量のニュース原稿等の文書を予め学習させておくため、これら文書の中に正しい情報が記載されていることが多いが、限られた時間で、オペレータが、この大量の文書から正しい情報を探し出すことは困難である。また、固有名詞や数字については、正しい情報を事前にオペレータに知らせておくことも重要となる。
そこで、本発明は、正しい情報が記載された関連文書を、人手によらずに、迅速、かつ、正確に選択して出力する関連文書選択出力装置及びそのプログラムを提供することを目的とする。
前記した課題を解決するため、請求項1に記載の関連文書選択出力装置は、文書が読み上げられる音声を音声認識して音声単語列を生成する音声認識装置と音声認識装置における音声認識誤りの修正作業が行われる誤認識修正装置と共に用いられ、文書が集合した文書集合から音声単語列に関連する関連文書を選択して出力し、音声認識誤りの修正作業を支援する関連文書選択出力装置において、文書ベクトル生成手段と、単語ベクトル生成手段と、関連文書選択手段と、関連文書出力手段と、を備える構成とした。
かかる構成において、関連文書選択出力装置は、文書ベクトル生成手段によって、予め、文書集合に含まれる単語の出現頻度・逆出現頻度を算出し、単語と単語の出現頻度・逆出現頻度とを対応付けて文書の内容を示す文書ベクトルを文書毎に生成する。また、関連文書選択出力装置は、単語ベクトル生成手段によって、音声単語列を構成する音声単語を受信する毎に、音声単語が文書集合に出現する頻度を算出し、音声単語と音声単語の頻度とを対応付けて音声単語列の内容を示す単語ベクトルを生成する。
また、関連文書選択出力装置は、関連文書選択手段によって、予め設定した距離尺度に基づいて、単語ベクトルに対する全ての文書ベクトルの距離を算出し、距離が最短となる文書ベクトルが示す文書を関連文書として選択する。これによって、関連文書選択手段は、単語ベクトルと文書ベクトルとの類似性を算出し、単語ベクトルに最も類似する文書ベクトルが示す文書を関連文書として選択する。さらに、関連文書選択出力装置は、関連文書出力手段によって、関連文書選択手段が選択した関連文書において、単語ベクトル生成手段が受信した音声単語に一致する単語を、関連文書に含まれる他の単語と区別して出力する。これによって、関連文書出力手段は、関連文書において、受信した音声単語の位置をオペレータに明示することができる。
このように、関連文書選択出力装置は、文書集合から、受信した音声単語に最も内容が近い文書、例えば、読み上げられて音声認識された文書を、関連文書として選択する。また、この関連文書には、音声認識に含まれる誤りを修正するために必要となる正しい情報が記載されていることが多い。
請求項2に記載の関連文書選択出力装置は、関連文書選択手段が選択した関連文書に含まれる単語が、固有名詞と数字とを予め登録した重要単語リストに含まれる場合、又は、単語の出現頻度・逆出現頻度が所定の閾値以上となる場合、単語を重要単語として強調する単語強調手段、をさらに備えることを特徴とする。
かかる構成において、関連文書選択出力装置は、単語強調手段によって、オペレータが頻繁に確認する重要単語を強調する。
請求項3に記載の関連文書選択出力装置は、誤って音声認識された音声単語の修正候補を出力する修正候補出力手段、をさらに備えることを特徴とする。
かかる構成において、関連文書選択出力装置は、修正候補出力手段によって、誤りを修正するときの手掛かりとなる修正候補を出力する。
請求項4に記載の関連文書選択出力装置は、音声単語列において、関連文書選択手段が選択した関連文書に含まれない単語が、所定の個数以上連続する場合、文書集合に関連文書が存在しない旨の警告を出力する警告手段、をさらに備えることを特徴とする。
かかる構成において、関連文書選択出力装置は、警告手段によって、文書集合に関連文書が存在しない旨、警告することができる。
また、前記した課題を解決するため、請求項5に記載の関連文書選択出力プログラムは、文書が読み上げられる音声を音声認識して音声単語列を生成する音声認識装置と音声認識装置における音声認識誤りの修正作業が行われる誤認識修正装置と共に用いられ、文書が集合した文書集合から音声単語列に関連する関連文書を選択して出力し、音声認識誤りの修正作業を支援するために、コンピュータを、文書ベクトル生成手段、単語ベクトル生成手段、関連文書選択手段、関連文書出力手段、として機能させる構成とした。
本発明によれば、以下のような優れた効果を奏する。
請求項1,5に記載の発明によれば、オペレータによる音声認識誤りの修正作業に必要となる正しい情報が記載さていることが多い関連文書を、人手によらずに、迅速、かつ、正確に選択して出力することができる。また、請求項1,5に記載の発明によれば、関連文書において、受信した音声単語の位置をオペレータに明示するため、オペレータが、音声認識の誤りの修正作業を行いやすくなる。
請求項2に記載の発明によれば、関連文書に含まれる重要単語を強調するため、オペレータが重要単語を視認しやすくなる。
請求項3に記載の発明によれば、誤りを修正するときの手掛かりとなる修正候補を出力するため、オペレータが、音声認識の誤りの修正作業をより行いやすくなる。
請求項4に記載の発明によれば、文書集合中に関連文書が存在しない旨、警告するため、オペレータが、関連性の低い関連文書に基づいて、誤って修正作業を行う事態を低減することができる。
[字幕生成システムの概要]
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
最初に、図1を参照して、本発明の実施形態に係る関連文書選択出力装置を含むリアルタイム字幕生成システムの概要について説明する。図1は、本発明の実施形態に係る関連文書選択出力装置を含むリアルタイム字幕生成システムの概要を示すブロック図である。リアルタイム字幕生成システム1は、ニュース番組において、ニュース原稿を読み上げる音声を音声認識した字幕を、音声認識誤りがある場合にはオペレータAがその誤りを修正してから、ニュース番組に付加するものである。ここでは、リアルタイム字幕生成システム1は、音声認識装置2と、関連文書選択出力装置3と、誤認識修正装置4とを備える。
音声認識装置2は、文書(ニュース原稿)により言語モデルを予め学習させておき、文書が読み上げられる音声(ニュース原稿の読み上げ音声)を音声認識して音声単語列を生成するものである。また、音声認識装置2は、生成した音声単語列を、逐次、関連文書選択出力装置3と誤認識修正装置4とに送信する。
関連文書選択出力装置3は、音声認識装置2と誤認識修正装置4と共に用いられ、文書dが集合した文書集合Dから音声単語列に関連する関連文書を選択してディスプレイ3aに出力し、音声認識誤りの修正作業を支援するものである。なお、関連文書選択出力装置3の詳細は、後記する。
誤認識修正装置4は、音声認識装置2における音声認識誤りの修正作業がオペレータAによって行われるものである。誤認識修正装置4は、例えば、タッチパネルディスプレイ4aに受信した音声単語列を表示する。そして、音声単語列が誤っている場合、オペレータAが、タッチパネルディスプレイ4aに触れて誤った単語を選択し、キーボード4bに正しい単語を入力して誤った単語を修正する。
このとき、関連文書選択出力装置3のディスプレイ3aに、音声単語列の誤りの正しい情報が記載された関連文書の内容が表示されているため、オペレータAが、誤りの修正作業を迅速、かつ、正確に行うことができる。
文書集合Dは、予め準備されたものであり、音声認識装置2において、言語モデルの学習に用いる文書と同じもので構成される。ここでは、文書集合Dは、3個のニュース原稿からなる文書d,d,dを、ファイルサーバ(不図示)の特定ディレクトリに格納したものである。なお、文書dは、3個以上であっても良いことは言うまでも無い。
[関連文書選択出力装置の構成]
次に、図2を参照して、本発明の実施形態に係る関連文書選択出力装置の構成について説明する。図2は、本発明の実施形態に係る関連文書選択出力装置の構成を示すブロック図である。図2に示すように、関連文書選択出力装置3は、文書ベクトル生成手段31と、単語ベクトル生成手段32と、関連文書選択手段33と、を備える。また、関連文書選択手段33は、単語強調手段34と、修正候補出力手段35と、警告手段36と、関連文書出力手段37と、を備える。
文書ベクトル生成手段31は、文書集合Dに含まれる単語毎に出現頻度・逆出現頻度(tf・idf値)を予め算出し、文書d毎に単語と単語の出現頻度・逆出現頻度とを対応付けて文書dの内容を示す文書ベクトル(tf・idfベクトル)Vを生成するものである。なお、文書ベクトル生成手段31の動作については、後記する。
ここで、ある文書dにおける単語uの出現頻度(語頻度)をtf jとし、文書集合Dにおける単語uを含む文書dの数を逆出現頻度(文書頻度)をdfとした場合、tf・idf値v jは、式(1)で表される。つまり、文書ベクトル生成手段31は、式(1)を用いて、単語の出現頻度・逆出現頻度(tf・idf値)v jを算出する。
Figure 2009210747
なお、文書ベクトルVの各成分(tf・idf値)v jは、音声認識装置2に登録された単語のみを考慮するものとし、音声認識装置2に登録された単語数(語彙サイズ)をNとした場合、N次元のベクトルとなる。
単語ベクトル生成手段32は、音声単語列を構成する音声単語を受信する毎に、音声単語が文書集合Dに出現する頻度を算出し、音声単語wと音声単語wが文書集合Dに出現する頻度とを対応付けて音声単語列の内容を示す単語ベクトルを生成するものである。ここで、図3を参照して、単語ベクトル生成手段32が単語ベクトルを生成する方法について説明する(適宜図2参照)。図3は、本発明における単語ベクトルの生成を説明するための説明図である。
ここでは、図3に示すように、音声認識装置2からi番目に受信した単語を、音声単語wとし、音声単語wi-(N+1)から音声単語wのN個の音声単語の集合を単語フレームとする(Nは1以上の整数)。そして、単語ベクトル生成手段32は、音声認識装置2から音声単語wをN個受信する毎に、単語フレーム単位で単語ベクトルWを生成する。なお、Nの値を1とすれば、単語ベクトル生成手段32は、音声単語w単位で単語ベクトルWを生成することは言うまでも無い。
単語ベクトルWは、音声単語wと音声単語wが文書集合Dに含まれる頻度とを対応付けたものである。具体的には、単語ベクトル生成手段32は、音声単語wが文書集合Dに何回出現したかをカウントし、音声単語wが文書集合Dに含まれる頻度を算出する。なお、単語ベクトルWは、音声認識装置2に登録された単語数(語彙サイズ)をNとした場合、N次元のベクトルとなり、単語フレームに含まれる音声単語wに該当する成分に対して、各々の頻度を反映したものとなる。
以下、図2に戻り、関連文書選択出力装置3の構成について説明を続ける。
関連文書選択手段33は、単語ベクトルWに対する全ての文書ベクトルVの距離を予め設定した距離尺度に基づいて算出し、距離が最短となる文書ベクトルVが示す文書を関連文書として選択するものである。具体的には、関連文書選択手段33は、式(2)で定義する距離尺度により、文書d毎に距離Sを算出する。なお、関連文書選択手段33の動作については、後記する。
Figure 2009210747
なお、式(2)では、「・」はベクトルの内積、「||」は、ベクトルの大きさ(ノルム)を示す。そして、関連文書選択手段33は、式(2)で距離Sが最短となる単語ベクトルWが示す文書dを関連文書として選択する。
ここで、音声単語列に誤りが含まれていることを想定しており、誤った関連文書を選択する場合が考えられるため、関連文書出力手段37は、選択した文書dを即座にディスプレイ3aに表示しなくとも良い。この場合、関連文書選択手段33は、式(2)で判定した文書dをRAM(Random Access Memory)に記憶しておき、K個(Kは1以上の整数)の音声単語wを受信しても、文書dが選択され続ける場合に、文書dを関連文書としてディスプレイ3aに表示することが好ましい。
前記したKとNとは、これらの値を大きくするほど、関連文書の選択精度が向上する一方、関連文書の検索に時間がかかってしまう。このため、関連文書選択手段33は、前記したKとNとを、音声単語列に含まれる誤りの割合等によって変更できることが好ましい。
また、関連文書選択手段33は、音声単語列に含まれる誤りの割合が低い場合、逆出現頻度idfが1となる単語に受信した音声単語wが一致するとき、この音声単語wを受信した直後に、関連文書を出力することが好ましい。
単語強調手段34は、関連文書選択手段33が選択した関連文書に含まれる単語が、固有名詞と数字とを予め登録した重要単語リストに含まれる場合、又は、単語の出現頻度・逆出現頻度が所定の閾値以上となる場合、単語を重要単語として強調するものである。例えば、単語強調手段34は、ディスプレイ3aに表示される関連文書において、重要単語の色やフォントを変更して強調する。
ここで、重要単語は、出現頻度・逆出現頻度が大きくなる傾向が強いことから、単語強調手段34は、関連文書に含まれる単語のうち、出現頻度・逆出現頻度が所定の閾値以上となる単語を重要単語として強調する。具体的には、単語強調手段34は、文書ベクトルVの各成分v jが所定の閾値以上となる場合、その成分(単語)を重要単語として強調する。なお、この所定の閾値は、文書の数に応じて任意に設定できる。
さらに、単語強調手段34は、出現頻度・逆出現頻度が大きい上位P個(Pは1以上の整数)の単語を重要単語として強調しても良い。
また、重要単語リストは、文書(ニュース原稿)の内容に応じて、様々な固有名詞や数字が予め登録されたものである。例えば、重要単語リストは、都道府県等の地域名、芸能人等の著名人の氏名や為替レートや平均株価等を示す数字を含む。
修正候補出力手段35は、誤って音声認識された音声単語の修正候補を出力するものである。ここで、修正候補出力手段35は、ディスプレイ3aに修正候補を別ウィンドウで出力する。なお、修正候補出力手段35の詳細については、後記する。
警告手段36は、音声単語列において、関連文書選択手段33が選択した関連文書に含まれない単語が、所定の個数以上連続する場合、文書集合Dに関連文書が存在しない旨を警告するものである。ここで、警告手段36は、ディスプレイ3aに警告ウィンドウを出力する。なお、警告手段36の詳細については、後記する。
関連文書出力手段37は、関連文書選択手段33が選択した関連文書において、単語ベクトル生成手段32が受信した音声単語wに一致する単語を、関連文書に含まれる他の単語と区別して出力するものである。ここで、関連文書出力手段37は、関連文書に含まれ、かつ、音声単語wに一致する単語を斜体で区別してディスプレイ3aに出力する。
なお、文書ベクトル生成手段31、単語ベクトル生成手段32及び関連文書選択手段33は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAMで構成することができる。
また、関連文書選択出力装置3は、図示しないHDD(Hard Disk Drive)等の記憶手段を備え、前記した文書集合D、重要単語リスト、K,L,N等のパラメータを記憶手段に記憶しても良い。以上、関連文書選択出力装置3の構成について説明した。
[警告手段及び関連文書出力手段の詳細]
以下、図4を参照し、警告手段36及び関連文書出力手段37の詳細について説明する(適宜図2参照)。図4は、図2の警告手段及び関連文書出力手段の詳細を説明するための説明図であり、(a)は、音声認識装置が正しく音声認識した音声単語列を示し、(b)は、関連文書選択出力装置が3個目の音声単語を受信したときのディスプレイの出力を示し、(c)は、関連文書選択出力装置が4個目の音声単語を受信したときのディスプレイの出力を示し、(d)は、関連文書選択出力装置が5個目の音声単語を受信したときのディスプレイの出力を示す。なお、図4(b)〜(d)において、下線は、単語強調手段34によって強調された単語を示す。
リアルタイム字幕をニュース番組に付加する場合、音声認識装置2は、例えば、「このピアノの演奏会は国連が障害者に対する・・・」というニュース原稿が1字1句正確に読み上げられた音声を音声認識する。そして、図4(a)に示すように、音声認識装置2は、1個目の音声単語w「この」、2個目の音声単語w「ピアノ」、3個目の音声単語w「の」、4個目の音声単語w「演奏会」、5個目の音声単語w「は」を生成し、関連文書選択出力装置3に逐次送信する(音声単語w以後は省略)。
ここで、関連文書選択手段33は、受信した音声単語wから時系列順にM個遡った音声単語wi-M+1までの音声単語群を一時的に記憶しても良い。図4では、Mの値を3として説明する。まず、音声単語w及び音声単語wを受信した場合、関連文書選択手段33は、音声単語wを3個受信していないので、処理を行わない。
次に、音声単語wを受信した場合、関連文書選択手段33は、音声単語群が関連文書に含まれるか否かを判別、例えば、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。この場合、関連文書にこの音声単語群が含まれるので、図4(b)に示すように、関連文書選択手段33は、関連文書出力手段37によって、関連文書において、この音声単語群に相当する単語、例えば、音声単語wから音声単語wに相当する3個の単語「このピアノの」を区別してディスプレイ3aに出力する。
また、図4(c)に示すように、音声単語wを受信した場合、関連文書選択手段33は、関連文書に、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。この場合、関連文書にこの音声単語群が含まれるので、関連文書選択手段33は、関連文書出力手段37によって、図4(b)と同様に、音声単語wから音声単語wに相当する3個の単語「ピアノの演奏会」を区別してディスプレイ3aに出力する。
また、図4(d)に示すように、音声単語wを受信した場合、関連文書選択手段33は、関連文書に、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。この場合、関連文書にこの音声単語群が含まれるので、関連文書選択手段33は、関連文書出力手段37によって、図4(b)と同様に、音声単語wから音声単語wに相当する3個の単語「の演奏会は」を区別してディスプレイ3aに出力する。
前記したMの値を小さくすると、関連文書に単語が含まれると判別される可能性が高くなり、関連文書選択手段33は、関連文書出力手段37によって、受信した音声単語wに対応していない単語を区別して表示する可能性も高くなるため、このMの値をある程度大きな値(例えば、Mは3以上の整数)とすることが好ましい。
ここで、この音声単語群が関連文書に含まれない状態が続く場合、つまり、関連文書に含まれない音声単語wが連続する場合、文書集合Dに関連文書が存在しないと言える。このため、関連文書選択手段33が、音声単語wがL個(Lは、1以上の整数)以上連続して関連文書に含まれないと判別した場合、警告手段36は、「該当する文書が存在しない」旨のメッセージが表示された警告ウィンドウを出力する(不図示)。
[修正候補出力手段の詳細]
以下、図5を参照し、修正候補出力手段35の詳細について説明する(適宜図2参照)。図5は、図2の修正候補出力手段の詳細を説明するための説明図であり、(a)は、音声認識装置が誤って音声認識した音声単語列を示し、(b)は、関連文書選択出力装置が3個目の音声単語を受信したときのディスプレイの出力を示し、(c)は、関連文書選択出力装置が4個目の音声単語を受信したときのディスプレイの出力を示し、(d)は、関連文書選択出力装置が5個目の音声単語を受信したときのディスプレイの出力を示す。なお、図5(b)において、下線は、単語強調手段34によって強調された単語を示す。
図5では、図4と異なる点を説明する。図5(a)に示すように、音声認識装置2は、「演奏会」という単語を「円」「総会」と誤って認識している。つまり、音声認識装置2は、4個目の音声単語wとして「円」、5個目の音声単語wとして「総会」を生成し、関連文書選択出力装置3に送信する。
図5(b)では、図4(b)と同様に、関連文書選択手段33は、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。そして、関連文書にこの音声単語群が含まれるので、関連文書出力手段37は、関連文書出力手段37によって、音声単語wから音声単語wに相当する3個の単語「このピアノの」を区別してディスプレイ3aに出力する。
図5(c)では、関連文書選択手段33は、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。しかし、音声単語wが誤っているため、関連文書選択手段33は、関連文書にはこの音声単語群が含まれないと判別する。この場合、修正候補出力手段35は、関連文書において、直前まで含まれていたと判別された単語の次から始まる単語列、具体的には、音声単語w「このピアノの」の次から始まる単語列「演奏会は国連が・・・」を修正候補として出力する。このとき、修正候補出力手段35は、直前まで含まれていたと判別された単語の次から句読点又は改行コードが出現するまでの単語列を修正候補として出力しても良い。
図5(d)では、関連文書選択手段33は、音声単語wから音声単語wまでの音声単語群が含まれるか否かを判別する。しかし、音声単語w及び音声単語wが誤っているため、関連文書選択手段33は、関連文書にはこの音声単語群が含まれないと判別する。このため、図5(c)と同様に、修正候補出力手段35は、修正候補を出力する。
なお、図4及び図5において、Mの値を1とすると、関連文書選択出力装置3は、前記した処理を、1個の音声単語w単位で行うことは言うまでも無い。
[文書ベクトル生成手段の動作]
以下、図6を参照して、文書ベクトル生成手段31が文書単語ベクトルを生成する動作について説明する(適宜図2参照)。図6は、図2の文書ベクトル生成手段の動作を示すフローチャートである。
まず、文書ベクトル生成手段31は、文書集合Dを単語単位に分割する(ステップS1)。また、文書ベクトル生成手段31は、単語毎に出現頻度(tf値)を算出し(ステップS2)、単語毎に逆出現頻度(idf値)を算出する(ステップS3)。さらに、文書ベクトル生成手段31は、単語毎に出現頻度・逆出現頻度(tf・idf値)を算出する(ステップS4)。
ステップS4に続き、文書ベクトル生成手段31は、単語の逆出現頻度が1であるか否かを判別する(ステップS5)。単語の逆出現頻度が1である場合(ステップS5でYes)、この単語がこれを含む文書と1対1で対応しているため、文書ベクトル生成手段31は、逆出現頻度が1となる単語の出現頻度・逆出現頻度に重み付けを行い、この値を1より大きくする(ステップS6)。このような重み付けによって、関連文書選択出力装置3が、より迅速、かつ、正確に文書を選択できることが経験則から判っている。
逆出現頻度が1でない場合(ステップS5でNo)又はステップS6の処理の後、文書ベクトル生成手段31は、文書毎に、文書ベクトルVを生成する(ステップS6)。
[関連文書選択手段の動作]
以下、図7を参照して、関連文書選択手段33が関連文書を選択する動作について説明する(適宜図2参照)。図7は、図2の関連文書選択手段の動作を示すフローチャートである。
まず、関連文書選択手段33は、出力中の文書Jを初期化(J=0)する(ステップS11)。また、関連文書選択手段33は、何番目の音声単語wを受信したかを示すカウンタiを、1からカウンタTまでカウントアップする(ステップS12)。このカウンタTの値は、特に制限されず、例えば、ある1本のニュース番組を音声認識して出力される音声単語の個数となる。また、音声単語wを受信したら、関連文書選択手段33は、単語ベクトルWを生成する(ステップS13)。そして、前記したように、予め設定した距離尺度に基づいて、単語ベクトルWに対する全ての文書ベクトルVの距離を文書毎に算出し、距離が最短となる文書ベクトルVが示す文書jを求める(ステップS14)。また、関連文書選択手段33は、ステップS13で求めた文書jが出力中の文書Jと同じであるか否かを判別する(ステップS15)。
ステップS13で求めた文書jが出力中の文書Jと同じ場合(ステップS15でYes)、関連文書選択手段33は、ステップS13で求めた文書jが選択され続けた回数を示すカウンタkをカウントアップする(ステップS16)。また、関連文書選択手段33は、カウンタkが前記したK以上であるか否かを判別する(ステップS17)。そして、カウンタkが前記したK以上であると判別した場合(ステップS17でYes)、関連文書選択手段33は、関連文書出力手段37によって、ディスプレイ3aにステップS13で求めた文書jを関連文書として出力し(ステップS18)、ステップS13で求めた文書jを出力中の文書Jに設定し(ステップS19)し、ステップS12の処理に戻る。
一方、カウンタkが前記したK以上でないと判別した場合(ステップS17でNo)、関連文書選択手段33は、ステップS13で求めた文書jを出力中の文書Jに設定し(ステップS20)、ステップS12の処理に戻る。
また、ステップS13で求めた文書jが出力中の文書Jと異なる場合(ステップS15でNo)、kの値を初期化し(ステップS19)、ステップS13で求めた文書jを出力中の文書Jに設定し(ステップS20)、ステップS12の処理に戻る。
なお、図7では、受信単語列を逐次受信することを想定しているため、前記した動作の終了を記載していないが、例えば、受信単語列の終了を示す文字コードを受信したら、関連文書選択手段33は、動作を終了しても良い。
なお、各実施形態では、本発明に係る関連文書選択出力装置を独立した装置として説明したが、本発明では、一般的なコンピュータを、前記した各手段として機能させるプログラムによって動作させることもできる。このプログラムは、通信回線を介して配布しても良く、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布しても良い。
本発明の実施形態に係る関連文書選択出力装置を含むリアルタイム字幕生成システムの概要を示すブロック図である。 本発明の実施形態に係る関連文書選択出力装置の構成を示すブロック図である。 本発明における単語ベクトルの生成を説明するための説明図である。 図2の警告手段及び関連文書出力手段の詳細を説明するための説明図であり、(a)は、音声認識装置が正しく音声認識した音声単語列を示し、(b)は、関連文書選択出力装置が3個目の音声単語を受信したときのディスプレイの出力を示し、(c)は、関連文書選択出力装置が4個目の音声単語を受信したときのディスプレイの出力を示し、(d)は、関連文書選択出力装置が5個目の音声単語を受信したときのディスプレイの出力を示す。 図2の修正候補出力手段の詳細を説明するための説明図であり、(a)は、音声認識装置が誤って音声認識した音声単語列を示し、(b)は、関連文書選択出力装置が3個目の音声単語を受信したときのディスプレイの出力を示し、(c)は、関連文書選択出力装置が4個目の音声単語を受信したときのディスプレイの出力を示し、(d)は、関連文書選択出力装置が5個目の音声単語を受信したときのディスプレイの出力を示す。 図2の文書ベクトル生成手段の動作を示すフローチャートである。 図2の関連文書選択手段の動作を示すフローチャートである。
符号の説明
1 リアルタイム字幕生成システム
2 音声認識装置
3 関連文書選択出力装置
3a ディスプレイ
4 誤認識修正装置
4a タッチパネルディスプレイ
4b キーボード
31 文書ベクトル生成手段
32 単語ベクトル生成手段
33 関連文書選択手段
34 単語強調手段
35 修正候補出力手段
36 警告手段
37 関連文書出力手段
A オペレータ
D 文書集合
,d,d 文書
単語ベクトル

Claims (5)

  1. 文書が読み上げられる音声を音声認識して音声単語列を生成する音声認識装置と、当該音声認識装置における音声認識誤りの修正作業が行われる誤認識修正装置と共に用いられ、前記文書が集合した文書集合から前記音声単語列に関連する関連文書を選択して出力し、前記音声認識誤りの修正作業を支援する関連文書選択出力装置において、
    前記文書集合に含まれる単語の出現頻度・逆出現頻度を予め算出し、前記文書毎に、当該単語と当該単語の出現頻度・逆出現頻度とを対応付けて前記文書の内容を示す文書ベクトルを生成する文書ベクトル生成手段と、
    前記音声単語列を構成する音声単語を受信する毎に、当該音声単語が前記文書集合に出現する頻度を算出し、当該音声単語と当該音声単語の頻度とを対応付けて前記音声単語列の内容を示す単語ベクトルを生成する単語ベクトル生成手段と、
    前記単語ベクトルに対する全ての前記文書ベクトルの距離を予め設定した距離尺度に基づいて算出し、前記距離が最短となる前記文書ベクトルが示す文書を前記関連文書として選択する関連文書選択手段と、
    前記関連文書選択手段が選択した関連文書において、前記単語ベクトル生成手段が受信した音声単語に一致する単語を、前記関連文書に含まれる他の単語と区別して出力する関連文書出力手段と、
    を備えることを特徴とする関連文書選択出力装置。
  2. 前記関連文書選択手段が選択した関連文書に含まれる単語が、固有名詞と数字とを予め登録した重要単語リストに含まれる場合、又は、当該単語の出現頻度・逆出現頻度が所定の閾値以上となる場合、当該単語を重要単語として強調する単語強調手段、
    をさらに備えることを特徴とする請求項1に記載の関連文書選択出力装置。
  3. 誤って音声認識された前記音声単語の修正候補を出力する修正候補出力手段、
    をさらに備えることを特徴とする請求項1又は請求項2に記載の関連文書選択出力装置。
  4. 前記音声単語列において、前記関連文書選択手段が選択した関連文書に含まれない単語が、所定の個数以上連続する場合、前記文書集合に前記関連文書が存在しない旨の警告を出力する警告手段、
    をさらに備えることを特徴とする請求項1から請求項3のいずれか一項に記載の関連文書選択出力装置。
  5. 文書が読み上げられる音声を音声認識して音声単語列を生成する音声認識装置と、当該音声認識装置における音声認識誤りの修正作業が行われる誤認識修正装置と共に用いられ、前記文書が集合した文書集合から前記音声単語列に関連する関連文書を選択して出力し、前記音声認識誤りの修正作業を支援するために、コンピュータを、
    前記文書集合に含まれる単語の出現頻度・逆出現頻度を予め算出し、前記文書毎に、当該単語と当該単語の出現頻度・逆出現頻度とを対応付けて前記文書の内容を示す文書ベクトルを生成する文書ベクトル生成手段、
    前記音声単語列を構成する音声単語を受信する毎に、当該音声単語が前記文書集合に出現する頻度を算出し、当該音声単語と当該音声単語の頻度とを対応付けて前記音声単語列の内容を示す単語ベクトルを生成する単語ベクトル生成手段、
    前記単語ベクトルに対する全ての前記文書ベクトルの距離を予め設定した距離尺度に基づいて算出し、前記距離が最短となる前記文書ベクトルが示す文書を前記関連文書として選択する関連文書選択手段、
    前記関連文書選択手段が選択した関連文書において、前記単語ベクトル生成手段が受信した音声単語に一致する単語を、前記関連文書に含まれる他の単語と区別して出力する関連文書出力手段、
    として機能させることを特徴とする関連文書選択出力プログラム。
JP2008052765A 2008-03-04 2008-03-04 関連文書選択出力装置及びそのプログラム Active JP4809857B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052765A JP4809857B2 (ja) 2008-03-04 2008-03-04 関連文書選択出力装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052765A JP4809857B2 (ja) 2008-03-04 2008-03-04 関連文書選択出力装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2009210747A true JP2009210747A (ja) 2009-09-17
JP4809857B2 JP4809857B2 (ja) 2011-11-09

Family

ID=41183983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052765A Active JP4809857B2 (ja) 2008-03-04 2008-03-04 関連文書選択出力装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4809857B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法
WO2018117094A1 (ja) * 2016-12-20 2018-06-28 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JP2019144310A (ja) * 2018-02-16 2019-08-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、およびプログラム
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092493A (ja) * 1999-09-24 2001-04-06 Alpine Electronics Inc 音声認識修正方式
JP2001306090A (ja) * 2000-04-25 2001-11-02 Sharp Corp 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体
JP2002222193A (ja) * 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
JP2006285212A (ja) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092493A (ja) * 1999-09-24 2001-04-06 Alpine Electronics Inc 音声認識修正方式
JP2001306090A (ja) * 2000-04-25 2001-11-02 Sharp Corp 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体
JP2002222193A (ja) * 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2006285212A (ja) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法
WO2018117094A1 (ja) * 2016-12-20 2018-06-28 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JPWO2018117094A1 (ja) * 2016-12-20 2019-10-24 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
JP2019144310A (ja) * 2018-02-16 2019-08-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、およびプログラム
JP7231806B2 (ja) 2018-02-16 2023-03-02 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、およびプログラム
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム

Also Published As

Publication number Publication date
JP4809857B2 (ja) 2011-11-09

Similar Documents

Publication Publication Date Title
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US9236045B2 (en) Methods and apparatus for proofing of a text input
US20160055763A1 (en) Electronic apparatus, pronunciation learning support method, and program storage medium
CN109791761B (zh) 使用校正的术语的声学模型训练
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US8688725B2 (en) Search apparatus, search method, and program
JP2006178087A (ja) 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20130191125A1 (en) Transcription supporting system and transcription supporting method
US9460718B2 (en) Text generator, text generating method, and computer program product
JP2006267319A (ja) 音声書き起こし支援装置及びその方法ならびに修正箇所決定装置
CN112382295B (zh) 语音识别方法、装置、设备及可读存储介质
JP4809857B2 (ja) 関連文書選択出力装置及びそのプログラム
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP4738847B2 (ja) データ検索装置および方法
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2019020597A (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
US20130080174A1 (en) Retrieving device, retrieving method, and computer program product
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
JP2009009307A (ja) 文書画像処理装置及びその方法
JP5696638B2 (ja) 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム
JP2002140094A (ja) 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110819

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4809857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250