JP5296598B2 - Audio information extraction device - Google Patents

Audio information extraction device Download PDF

Info

Publication number
JP5296598B2
JP5296598B2 JP2009111587A JP2009111587A JP5296598B2 JP 5296598 B2 JP5296598 B2 JP 5296598B2 JP 2009111587 A JP2009111587 A JP 2009111587A JP 2009111587 A JP2009111587 A JP 2009111587A JP 5296598 B2 JP5296598 B2 JP 5296598B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
unit
search
video
audio
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009111587A
Other languages
Japanese (ja)
Other versions
JP2010262413A (en )
Inventor
彰夫 小林
亨 今井
貴裕 奥
庄衛 佐藤
真一 本間
Original Assignee
日本放送協会
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice information extraction device for displaying the voice recognition result of a program or the like and a topic related with speech content as a retrieval result. <P>SOLUTION: A voice information extraction device includes: a video voice recording part for obtaining a video and a voice; a voice recognition part for performing the voice recognition processing of a voice by using an acoustic model and a language model; a text data obtaining part for obtaining text data related with the obtained video and voice from the outside; a topic extraction part for extracting a topic by comparing the obtained text data with the result of the voice recognition processing; a voice information integration part for writing voice information configured by integrating the voice recognition result with the topic in the voice information storage part; an index creation part for retrieval for creating an index for retrieval on the basis of the voice recognition result; and a retrieval server part for retrieving index voice information for retrieval on the basis of a retrieval request on the basis of a retrieval word, and for reading and presenting the voice information related with the pertinent video and the voice. <P>COPYRIGHT: (C)2011,JPO&amp;INPIT

Description

本発明は、入力される映像・音声から、音声情報を抽出し、抽出された音声情報を検索・閲覧可能とする音声情報抽出装置に関する。 The present invention is, from the video and audio to be input, extracts the audio information, a speech information extraction apparatus according to a speech information retrieval and viewable extracted.

特許文献1の、特に請求項7には、テレビジョンの放送番組データに含まれる映像信号を表示装置に表示するとともに、当該放送番組データに含まれる音声データに対して音声認識処理を行なうことによって文章情報を取得し、所定の時刻に、取得した文章情報を形態素解析することによってキーワードを抽出して、抽出されたキーワードと当該時刻の情報とを共に記憶装置に蓄積し、これらを履歴として時系列に提示し、いずれかの時刻情報が選択された場合に、選択された時刻情報と共に前記記憶装置に記憶されたキーワードの一覧を表示する情報処理装置が記載されている。 Patent Document 1, in particular to claim 7, and displays on the display device an image signal included in the television broadcast program data, by performing a speech recognition process on the voice data included in the broadcast program data acquires text information, in a predetermined time, extracts the keywords by morphological analyzes the acquired text information, the extracted keywords and the information of the time both stored in the storage device, when these as history presented sequence, if any time information is selected, the information processing apparatus for displaying a list of stored in the memory device together with time information selected keyword is described. また、このキーワードを用いることにより、インターネット等の通信回線を介して、外部から関連する詳細情報を取得できるようになる。 By using this keyword, via the communication line such as the Internet, it becomes possible to obtain more relevant information from the outside.

非特許文献1および非特許文献2には、音声認識結果のラティスのデータを展開したり圧縮したりする技術が記載されている。 Non-Patent Document 1 and Non-Patent Document 2, a technique for or compress and expand the lattice of the data of the speech recognition result is described.
非特許文献1に記載されている方法は、ラティスを集約する際に、発話時刻の重なりと、単語表記の発音の類似性を調べる。 The method described in Non-Patent Document 1, when aggregating lattice, determine overlap and speech time, a similarity of pronunciation of words representation. 例えば「リンカーン」と「印鑑(いんかん)」は発音が類似しているといったことを調べる。 For example, "Lincoln," "seal (seal)" find out things like pronunciation is similar. これにより、単語仮説(正解候補)の対立関係を求めることができる。 As a result, it is possible to find the rivalry of the word hypothesis (correct candidate).
また、非特許文献2に記載されている方法は、ラティスを圧縮する際に、予め圧縮ラティスの元になるグラフ(最尤系列)をラティスから選んでおく。 Further, the method described in Non-Patent Document 2, when compressing lattice, should choose precompressed Lattice underlying graph (maximum likelihood sequence) Lattice. そして、その後、ラティスを巡回する順番を変えながら、圧縮ラティスにノード、エッジを追加していく。 And, then, while changing the order in which patrol the lattice, node to compression lattice, continue to add edge.

特開2009−077166号公報 JP 2009-077166 JP

しかしながら、上記の従来技術(特に、特許文献1に記載の技術)では、番組等の音声を認識してキーワードを抽出し、そのキーワードに関連する情報を外部から取得することはできるものの、番組等を検索対象とすることはできない。 However, the above prior art (in particular, the technique described in Patent Document 1), a keyword is extracted by recognizing the voice of a program and the like, although it is possible to obtain information related to the keyword from the outside, a program, etc. It can not be searched for.
また、従来技術では、外部から取得した情報と番組等の音声そのものとの関係が利用者にわかりにくい。 In addition, in the prior art, the relationship between the voice itself of such information and the program acquired from the outside is difficult to understand to the user.
また、テレビやラジオなどの放送などにおける言語表現の変化により、音声認識の精度が落ちることも考えられる。 In addition, due to the change of language expression, such as in broadcasting, such as television and radio, it is conceivable to fall the accuracy of voice recognition.

また、非特許文献1に記載されているラティスデータ処理方法では、エッジのクラスタリングを音素列に変換した単語仮説同士の編集距離に基づいてクラスタリングするため、ラティスの圧縮に時間がかかるという問題がある。 Further, the lattice data processing method described in Non-Patent Document 1, since the clustering based on the edit distance word hypotheses each other by converting the clustering edges phoneme string, there is a problem that it takes time to lattice compression . つまり、単語表記ごとに発音の類似度を比べるため、圧縮の手続きに時間がかかるという問題がある。 In other words, for every word notation compared the similarity of pronunciation, time compression of the procedure there is a problem that it takes.
また、非特許文献2に記載されているラティスデータ処理方法では、非特許文献1に記載されている手法よりは高速にラティスを圧縮することが可能だが、単語仮説のクラスタリングを行わないため、圧縮率が低いという問題がある。 Further, since the lattice data processing method described in Non-Patent Document 2, rather than the technique described in Non-Patent Document 1 but can be compressed lattice at high speed, which does not perform clustering word hypotheses, compression the rate is low. つまり、発音の類似性の比較を行わないので、圧縮ラティスの精度が悪いという問題がある。 That does not perform the comparison of the similarity of the sound, the accuracy of the compressed lattice is poor.

本発明は、上記の課題認識に基づいて為されたものであり、映像および音声を蓄積するとともに、その発話内容を対象として映像および音声を検索することができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することのできる、音声情報抽出装置を提供することを目的とする。 The present invention has been made based on recognition of the above problems, as well as storing the video and audio, in the speech content can retrieve video and audio as target, sound corresponding location as the search result audio information, such as information on the topics and speakers can also be presented in an easy-to-understand user, an object of the present invention is to provide a speech information extraction device.

また、本発明は、言語表現が変化しても音声認識の精度が落ちない構成を備えた音声情報抽出装置を提供することを目的とする。 The present invention also aims to provide a speech information extraction apparatus having a configuration in which language expression is not less accurate speech recognition vary.

さらに、本発明では、音声認識処理の結果得られるラティスデータを、高速に且つ高圧縮率で圧縮し、利用することのできる音声情報抽出装置を提供することも目的とする。 Furthermore, in the present invention, the lattice data obtained as a result of the speech recognition process, a high speed and compressed at a high compression ratio, also aims to provide a speech information extraction apparatus that can be utilized.

[1]上記の課題を解決するため、本発明の一態様による音声情報抽出装置は、映像および音声を記憶する映像音声記憶部と、単語と、音声における発話時刻と、の対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と、発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と、音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読 [1] In order to solve the above problems, the audio information extraction apparatus according to an aspect of the present invention, includes a video and audio storage unit for storing the video and audio, and words, and the speech time in the voice, the correspondence between storage and retrieval for search index storage unit for storing the index to be, and the speech time, and the speech content is the word of the column, and the topic, and at least one of the speaker's name or the speaker attribute, the voice information made in association with a voice information storage unit that, the language model storage unit for storing the acoustic model storing unit for storing the acoustic model statistically represent, statistically represents language model word frequency acoustic features of speech, read the video and audio and video and audio recording unit that acquires from an external writing to the video and audio storage unit, and wherein the acoustic model read from the acoustic model storage unit from the language model storage unit 出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データを予め記憶する話者データ記憶部と、前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、前記音声認識結果と Using said language model out, the performs speech recognition processing of the speech video and audio recording unit has acquired, a speech recognition unit which outputs a speech recognition result, speaker or each acoustic features of each speaker attribute a speaker data storage unit for previously storing a statistically represents the speaker data, by using the speaker data read from said speaker data storage unit, corresponding to the sound the video and audio recording unit acquires a speaker identification unit which calculates and outputs the speaker name or speaker attributes, and the text data acquisition section for acquiring text data associated with the video and the audio the video and audio recording unit is acquired from the outside, the text a topic extraction unit for extracting the topic by comparing said text data in which the data acquisition unit has acquired a and the speech recognition result outputted by the speech recognition unit, the speech recognition result and 前記話題と、前記話者名または前記話者属性の少なくともいずれか、とを統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、を具備することを特徴とする。 Said topic, at least one of the talker name or the speaker attribute, and the audio information integration unit for writing the audio information obtained by integrating the city in the voice information storage unit, the search index based on the speech recognition result a search index creation unit data to create a written in the search index storage unit, searches the search index storage unit and the voice information storage unit based on the search request by the search term, corresponding to the search word Play with presenting the audio information associated with the video and the audio as the search result to the voice information storage unit reads the search source from the video and the sound stored in the video and audio storage unit a search server unit which allows, characterized in that it comprises a.
ここで、映像および音声とは、それぞれ映像および音声を表わす電気的な信号あるいはデータである。 Here, the video and audio, is an electrical signal or data respectively representing video and audio. これらはコンピュータ等によって処理可能である。 These can be processed by a computer or the like.
また、発話時刻とは、番組ID(放送チャンネルと番組名から定める一意の数値などの識別情報)と発話開始時刻との組み合わせによって表わされる情報である。 Further, the speech time, is information represented by a combination of the utterance start time (identification information such as a unique numerical value determined from the broadcast channel and the program name) program ID. この発話開始時刻は、番組開始時からの相対時刻や、現実の日時(例えば日本標準時)で表わされる。 The utterance start time, and the relative time from the time of program start, expressed in the real time (e.g., Japanese Standard Time).
また、音声情報とは、音声に関する情報であり、その詳細は後述する。 Further, the audio information is information for voice, which will be described later in detail.

上記の構成によれば、音声認識結果と抽出された話題とを音声情報として統合して記憶部に記憶させるとともに、検索用インデックスが記憶部に記憶されていることにより、検索語による検索要求に対して、合致する発話内容(音声認識結果)を有する番組と、その発話内容に関連する話題とを検索結果として利用者に提示できる。 According to the arrangement, a topic which has been extracted and the speech recognition result causes the storage unit integrates as audio information, by searching for the index is stored in the storage unit, the search request by the search term in contrast, a program having speech content that matches (speech recognition results), can be presented to the user and topic related to the speech content as the search result. また、その検索結果から選択された番組の映像および音声を再生表示することができる。 Further, it is possible to reproduce and display the video and audio of the selected program from the search result.

[2]また、本発明の一態様は、上記の音声情報抽出装置において、前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出することを特徴とする。 [2] Another embodiment of the present invention, in the audio information extraction device, the topic extraction unit, a predetermined number of words set included in the text data contained in the word of a predetermined number of the speech recognition result calculating a degree of similarity according to the number that is, by performing the association between the text data and the voice recognition result on the basis of the similarity, and extracting the topic from the text data.
この構成により、話題を抽出するとともに、音声認識結果において話題境界を特定することができる。 This arrangement extracts the topic can be identified topic boundary in the speech recognition result.

[3]また、本発明の一態様は、上記の音声情報抽出装置において、前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする。 [3] Another embodiment of the present invention, in the audio information extraction device, stored in the language model storage unit by calculating the frequency of words in among the text data to which the text data acquisition unit acquires and further comprising a language model learning unit for updating the language model being.
これにより、最新の放送の内容に基づいて言語モデルを更新することができ、音声認識の認識率の向上につながる。 This makes it possible to update the language model based on the contents of the latest broadcast, it leads to an improvement of the recognition rate of speech recognition.

[4]また、本発明の一態様は、上記の音声情報抽出装置において、前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成することを特徴とする。 [4] Another embodiment of the present invention, in the audio information extraction device, performs a process of the speech recognition unit compresses the lattice data representing a directed acyclic graph of word hypothesis output as the speech recognition result further comprising a lattice compression unit, the search index creation unit is characterized in that to create an index for the search on the basis of the lattice data compressed by the lattice compression unit.
これにより、音声認識結果のラティスを圧縮し、音声認識結果ラティスのために必要な記憶容量を削減することができる。 Thus, compressing the lattice of the speech recognition result, it is possible to reduce the storage capacity required for the speech recognition result lattice.

[5]また、本発明の一態様は、上記の音声情報抽出装置において、利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする。 [5] Another embodiment of the present invention, in the audio information extraction device, transmits the search request to the search server unit using a search word based on the input from the user, the search server unit the search results displayed on the screen from further based on an operation from a user, characterized by comprising a search client unit for reproducing the video and the audio corresponding further.

また、本発明の一態様は、上記の音声情報抽出装置において、ラティス圧縮部が次の(1)〜(3)の処理を行うものである。 Another embodiment of the present invention, in the audio information extraction device, the lattice compression section performs processing of the following (1) to (3).
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。 (1) The edge on the lattice, one utterance start time and the utterance end time of an edge overlapping, clustering edges with the same notation (that is, to represent the start and end of the edge large posterior probability , give the sum of the posterior probabilities in the larger (better to a representative)).
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。 (2) for the edge of the lattice, clustering edges overlapping (i.e., to have the same starting node and end node).
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。 (3) edge on the Lattice, visit the nodes in topological order, continue to merge the link.

本発明によれば、映像および音声を蓄積するとともに、その発話内容を対象として、検索語による映像および音声の検索をすることができ、検索結果として音声の該当箇所における話題や話者に関する情報などといった音声情報も利用者にわかりやすく提示することができる。 According to the present invention, along with storing video and audio, the utterance contents as a target, it is possible to search for video and audio by search terms, the search result including information on topics and speakers in the relevant parts of speech audio information can also be presented in an easy-to-understand user such.

本発明の実施形態による音声情報抽出装置の機能構成を示したブロック図である。 It is a block diagram showing a functional configuration of the audio information extraction apparatus according to an embodiment of the present invention. 同実施形態における音声情報記憶部16が記憶する音声情報の構造を示す概略図である。 It is a schematic diagram showing the structure of a voice information stored in the voice information storage unit 16 in the embodiment. 同実施形態における検索クライアント部20に設けられている表示装置に表示される画面の構成を示す概略図である。 Is a schematic diagram showing the configuration of a screen displayed on a display device provided to the search client unit 20 in the same embodiment. 同実施形態による検索クライアント部20に設けられている表示装置における検索結果の表示の画面構成を示す概略図である。 It is a schematic diagram showing the search results display screen configuration of the display device provided to the search client unit 20 according to the embodiment. 同実施形態におけるテキスト収集部3および言語モデル学習部9による、言語モデル学習処理の手順を示すフローチャートである。 According to the text collection portion 3 and the language model learning unit 9 in the embodiment is a flowchart showing a procedure of the language model learning process. 同実施形態における話題抽出部14による、話題抽出処理の手順を示すフローチャートである。 According to the topic extraction unit 14 in the embodiment, it is a flowchart illustrating the procedure of topic extraction process. 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第1である。 According to Lattice expansion and compression unit 12 in the embodiment is a first flowchart showing a procedure of processing for compressing the lattice of the speech recognition result. 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第2である。 According to Lattice expansion and compression unit 12 in the embodiment, it is a second flowchart showing the procedure of processing for compressing the lattice of the speech recognition result. 同実施形態におけるラティス展開・圧縮部12による、音声認識結果のラティスを圧縮する処理の手順を示すフローチャートの第3である。 According to Lattice expansion and compression unit 12 in the embodiment is a third flowchart showing the procedure of processing for compressing the lattice of the speech recognition result. 同実施形態における検索用転置インデックス作成部15による、転置インデックス作成処理の手順を示すフローチャートである。 According to search inverted index creation unit 15 in the embodiment is a flowchart showing a procedure of inverted index creation processing. 同実施形態における検索用転置インデックス記憶部17に記憶される、転置インデックスのデータ構成を示す概略図である。 Is stored in the search inverted index storage unit 17 in the embodiment is a schematic diagram showing the data structure of the inverted index.

以下、図面を参照しながら、本発明の実施形態について説明する。 Hereinafter, with reference to the drawings, embodiments of the present invention will be described.
図1は、同実施形態による音声情報抽出装置の機能構成を示すブロック図である。 Figure 1 is a block diagram showing the functional configuration of the audio information extraction apparatus according to the embodiment. 図示するように、音声情報抽出装置50は、映像・音声収録部1と、番組情報収集部2と、テキスト収集部3と、話者データ記憶部4と、話者識別部5と、音声認識部6と、音響モデル記憶部7と、言語モデル記憶部8と、言語モデル学習部9と、テキストデータ記憶部10と、単語辞書記憶部11と、ラティス展開・圧縮部12(ラティス圧縮部)と、音声情報統合部13と、話題抽出部14と、検索用転置インデックス作成部15(検索用インデックス作成部)と、音声情報記憶部16と、検索用転置インデックス記憶部17と、映像音声記憶部18と、検索サーバ部19と、検索クライアント部20とを含んで構成される。 As shown, audio information extracting device 50 includes a video and audio recording unit 1, a program information acquisition unit 2, a text acquisition section 3, the speaker data storage unit 4, a speaker identification section 5, speech recognition a Department 6, an acoustic model storage unit 7, the language model storage unit 8, and the language model learning unit 9, a text data storing unit 10, a word dictionary storing unit 11, the lattice expansion and compression section 12 (lattice compression unit) When a voice information integration section 13, and the topic extraction unit 14, a search inverted index creation unit 15 (the search index creation unit), and voice information storage unit 16, a search inverted index storage unit 17, the video and audio storage a unit (18) configured to include a search server 19, a search client unit 20.

なお、話者データ記憶部4と、音響モデル記憶部7と、言語モデル記憶部8と、テキストデータ記憶部10と、単語辞書記憶部11と、音声情報記憶部16と、検索用転置インデックス記憶部17と、映像音声記憶部18とは、それぞれ、磁気ディスク装置(HDD)または半導体メモリ(半導体RAMまたは半導体ROMなど)を用いて実現される。 It should be noted that the speaker data storage unit 4, an acoustic model storage unit 7, the language model storage unit 8, and the text data storage unit 10, and the word dictionary storage unit 11, a voice information storage unit 16, the search for the transposed index storage and parts 17, the video and audio storage unit 18, respectively, is realized by using the magnetic disk device (HDD) or a semiconductor memory (such as a semiconductor RAM or a semiconductor ROM).

映像・音声収録部1は、放送(総合テレビ、教育テレビ、衛星放送、ラジオ第一、ラジオ第二など)の映像および音声の入力を受け、それらを計算機にて読み取り可能なデジタル動画データファイルに変換する。 Video and audio recording unit 1, broadcasting (General TV, Educational TV, satellite broadcasting, radio first, radio second, etc.) receives the video and audio input of, to them can be read by computer digital video data file Convert. なお、映像・音声収録部1は、ここで得られたデジタル動画データファイルを映像音声記憶部18に書き込む。 The video and audio recording unit 1 writes the digital moving picture data file obtained here video and audio storage unit 18. また、ここで得られたデジタル動画データファイルは、後述する話者識別部5や音声認識部6においても利用される。 Further, where the obtained digital video data file is also used in the speaker identification unit 5 and the speech recognition unit 6 to be described later.

番組情報収集部2は、インターネット等の通信回線を介して、外部のサーバコンピュータ(ウェブサーバなど)から、番組情報やEPG(電子番組ガイド,Electronic Program Guide)情報を取得する。 Program information collecting unit 2, via a communication line such as the Internet, from an external server computer (Web server), acquires program information and EPG (Electronic Program Guide, Electronic Program Guide) information. これらの情報には、番組のタイトルや、番組の出演者等のテキスト情報が含まれている。 These information, program and title, contains text information such as the program of the performer. 番組情報収集部2は、取得したEPG情報等を加工し、映像・音声収録部1によって変換されたデジタル動画データファイルのメタデータとして保存する。 Program information collecting unit 2, processes the acquired EPG information or the like is stored as metadata in the digital moving picture data file that has been converted by the video and audio recording unit 1.

テキスト収集部3は、インターネット等の通信回線を介して、外部のサーバコンピュータ(ウェブサーバなど)から、ウェブテキスト情報を取得し、そのウェブテキスト情報に対して形態素解析等の自然言語処理を行なった上で、テキストデータ記憶部10に書き込む。 Text collection unit 3, via a communication line such as the Internet, from an external server computer (web servers), acquires web text information, was subjected to natural language processing such as morphological analysis for the web text information above, it is written in the text data storage unit 10. ここで、テキスト収集部3が取得するウェブテキスト情報は、例えば、テレビやラジオの放送局が運営するウェブサイトに掲載されているニュース等のウェブテキスト情報である。 Here, web text information to be acquired text collection unit 3, for example, a web text information such as news that has been posted on the web site operated by broadcasting stations of TV and radio. なお、テキストデータ記憶部10に書き込まれたテキストデータは、後で詳述するように、言語モデル学習部9や話題抽出部14によって読み出され利用される。 Note that the text data written in the text data storage unit 10, as will be described later, is utilized read by the language model learning unit 9 and the topic extraction unit 14.

話者データ記憶部4は、話者毎または話者属性毎の音響的特徴を統計的に表わした話者データと、発話末の単語列もしくは文節と、当該単語列の直後に発話者もしくは話者属性の交代が起こる確率とをテーブル化し、言語特徴量として予め記憶するものである。 Speaker data storage unit 4, a statistically represents the speaker data acoustic features of the speaker or each speaker for each attribute, a word string or phrase at the end of speech, speaker or speak immediately after the word sequence user attribute of alternation tabulates the probability of occurrence is for previously storing as a language feature value. ここで、話者属性とは、例えば話者の性別(男性または女性)など、異なる音響的特徴に関連付けられる属性である。 Here, the speaker attributes such as speaker gender (male or female) is an attribute associated with a different acoustic characteristics.

話者識別部5は、話者データ記憶部4から読み出した話者データを用いて、映像音声収録部1が取得した音声を分析し、対応するクラス(話者名や話者属性)を算出して出力する。 The speaker identification unit 5, calculated using the speaker data read from the speaker data storage unit 4, analyzes the voice video and audio recording unit 1 has acquired, the corresponding class (speaker name, speaker attribute) to and output. 具体的には、話者識別部5は、映像音声収録部1が取得した音声を基にその音響的特徴量を求め、その音響的特徴が話者データ記憶部4に記憶されているいずれかの話者クラス(個別話者や話者属性に対応)に属するものであるか、或いは未知のものであるかについて、その確率を求める。 Either Specifically, the speaker identification unit 5 obtains its acoustic feature quantity based on an audio video audio recording unit 1 is obtained, whose acoustic characteristics are stored in the speaker data storage unit 4 of the speaker class or those belonging to the (corresponding to an individual speaker and speaker attribute), or about what is unknown things, obtain the probability. また、音声認識部6から、音声認識結果を取得し、その末尾の単語列もしくは文節から、話者データ記憶部4に記憶されたテーブルを参照し、話者もしくは話者属性の交代が行われた確率を求める。 Further, from the speech recognition unit 6 acquires the speech recognition result, from the word sequence or clause of the tail, with reference to the table stored in the speaker data storage unit 4, is performed change of the talker or the speaker attribute and determine the probability. 話者識別部5は、音響特徴量と、言語特徴量から求めた確率を統合し、音声が話者データ記憶部4に記憶されているいずれかの話者クラスに属するか、あるいは未知のものであるかを判別する。 The speaker identification unit 5, and the acoustic features by integrating the probability determined from the language feature amount, audio belongs to one of the speaker classes stored in the speaker data storage unit 4, or unknowns or to determine it. 話者クラスが既知であれば、話者識別部5は、対応する話者名または話者属性を識別結果として出力し、未知であれば、新たな話者クラスを生成し、話者クラスの番号を識別結果として出力する。 If speaker class is known, the speaker identification unit 5, and outputs a corresponding speaker name or speaker attribute as identification result, if unknown, to generate a new speaker class of the speaker class and outputs the number as an identification result.

音声認識部6は、音響モデル記憶部7から読み出した音響モデルと言語モデル記憶部8から読み出した言語モデルとを用いて、映像音声収録部が取得した音声の音声認識処理を行ない、音声認識結果を出力する。 Speech recognition unit 6, by using the language model read from the acoustic model and the language model storage unit 8 read out from the acoustic model storage unit 7 performs voice recognition processing of the audio video voice recording unit is acquired, the speech recognition result to output. この際、音声認識部6では、映像音声収録部が取得した音声について、音声認識の前処理として、まず、当該音声が人間の話し声の箇所か、音楽の箇所(人間の話し声に該当しない箇所)かを識別する。 In this case, the speech recognition unit 6, the audio video audio recording unit obtains, as preprocessing of the speech recognition, first, the voice of the human speech portion, music locations (locations not corresponding to human speech) identifying whether. そして音声認識部6は、音楽と判定された区間については、開始時刻とともに音楽箇所であることを示すメタデータを出力する。 The speech recognition unit 6, for the music and the determined interval, and outputs the metadata indicating that with the start time is music location. 話し声と判定された区間については、当該区間を音声認識し、発話内容を音声認識結果として出力する。 For was determined to speech segment, the segment is recognized voice, and outputs the speech content as the speech recognition result. この音声認識部6による音声認識処理自体には、既存の技術を利用する。 The speech recognition process itself by the speech recognition unit 6, using existing technology. なお、後でラティス展開・圧縮部12の処理の説明の箇所で詳述するように、音声認識部6は、単語仮説をエッジとするとともに単語と単語の間の時刻に対応するノードを有する有向非巡回グラフであるラティス構造のデータを、音声認識結果として出力する。 Incidentally, as later detailed in place of description of the processing of lattice expansion and compression section 12, the speech recognition unit 6, chromatic having nodes corresponding to the time between the terms, with the word hypotheses to edge data lattice structure which is directed acyclic graph, and outputs as a speech recognition result. このラティス構造のデータは、音声認識結果の仮説とそれら仮説の確率を表わすデータである。 The data of lattice structure is data representing the probability of the speech recognition result hypotheses and their hypotheses. なお、このラティス構造のデータをフォワード・バックワード(forward−backward)アルゴリズム等によって走査することにより、事後確率を計算し、最尤単語列を求めることは可能である。 Incidentally, by scanning the data of the lattice structure by forward and backward (forward-backward) algorithm or the like, to calculate the posterior probability, it is possible to obtain the best word sequence.

音響モデル記憶部7は、例えば音素などの言語的単位と、その音素が音声として発話された場合の音響的特徴量との関係を統計的に表わしたデータとしてなる音響モデルを記憶するものである。 Acoustic model storing unit 7, for example, a linguistic units, such as phonemes, the phoneme is used for storing an acoustic model comprising a statistically represents data the relationship between the acoustic feature amount when uttered as speech . 具体的には、音響モデルは、音素単位の表記と、音響的特徴量と、確率値とを関連付けたデータの集合として表わされる。 Specifically, the acoustic model is a representation of the phoneme is represented as a set of data associated with the acoustic feature quantity, and a probability value. なお、音響モデルには、例えば、隠れマルコフモデル(HMM)を利用する。 Note that the acoustic model, for example, utilizes a hidden Markov model (HMM).

言語モデル記憶部8は、所定の言語において、例えば音素や単語などの言語的単位が出現する頻度(特徴)を統計的に表わしたデータとしてなる言語モデルを記憶するものである。 The language model storage unit 8, in a predetermined language, for example, those linguistic units, such as phonemes or words to store the language model comprising a statistically represents data frequency (features) appearing. 具体的には、言語モデルとしては、例えば単語nグラム(n−gram)を用いる。 Specifically, the language model, for example, a word n-gram (n-gram). この単語nグラムは、テキスト内で出現するn個(nは、自然数)の連続する単語の並びとそのn個の単語列の出現頻度を表わす出現確率(0以上で1以下の実数)との組を蓄積した統計的データである。 This word n-grams, n pieces that appear in the text (n is a natural number) of consecutive words of the sequence and its n-number of the occurrence probability that represents the frequency of occurrence of the word string (0 or more and 1 or less of the real number) and a statistical data stored pairs.

言語モデル学習部9は、テキストデータ取得部3が取得したテキストデータをテキストデータ記憶部10から読み出し、そのテキストデータの中における単語の出現頻度を統計的に算出することによって言語モデル記憶部9に記憶されている言語モデルを更新する処理を行なうものである。 Language model learning unit 9, the text data is text data acquisition unit 3 acquires text read from the data storage unit 10, the language model storage unit 9 by statistically calculating the frequency of words in within the text data and it performs processing for updating the language model stored. この言語モデル学習の処理の詳細については、後で、フローチャートを参照しながら説明する。 For details of the processing of the language model learning later be described with reference to a flowchart.

テキストデータ記憶部10は、テキスト取得部3がインターネット等を介して外部のウェブサーバ等から取得したテキストデータを記憶するものである。 Text data storage unit 10 are those in which the text acquisition unit 3 stores the text data acquired from the external web server or the like via the Internet or the like. なお、このテキストデータは、形態素解析処理済のニュース原稿等である。 It should be noted that this text data is a news manuscript such as morphological analysis processed.

単語辞書記憶部11は、テキスト取得部3や言語モデル学習部9による処理の際に用いられる単語辞書データを記憶するものである。 Word dictionary storage unit 11 is configured to store a word dictionary data used for processing by the text acquisition unit 3 and the language model learning unit 9.

ラティス展開・圧縮部12は、音声認識部6によって出力される音声認識結果としてラティスのデータ(単語仮説による有向非巡回グラフ)を圧縮する処理を行なう。 Lattice expansion and compression unit 12 performs a process of compressing the lattice data (directed acyclic graph by word hypotheses) as the speech recognition result output by the speech recognition unit 6. なお、ラティス展開・圧縮部12は、バイグラム(bigram)によるラティスを一旦トライグラム(trigram)によるラティスに展開してから、圧縮する処理を行なう。 Incidentally, the lattice expansion and compression section 12, expand the lattice by bigram (bigram) once the trigram lattice by (trigram), performs a process of compression. このラティス展開・圧縮部12による処理の詳細については、後でフローチャートを参照しながら詳しく説明する。 For more information about this by treatment Lattice expansion and compression unit 12 will be described in detail with later referring to the flow chart.

音声情報統合部13は、少なくとも、音声認識部6から得られる音声認識結果(単語列、発話内容のテキスト)と、話題抽出部14から得られる話題とを統合し、音声情報として音声情報記憶部16に書き込む。 Audio information integration unit 13 includes at least a result speech recognition obtained from the speech recognition unit 6 (word string, the utterance text), by integrating the topics derived from the topic extraction unit 14, the voice information storage unit as the voice information write to 16. また、音声情報統合部13は、話者識別部5から出力される話者または話者属性(例えば、話者の性別など)の識別結果も、発話内容に関連付けて、音声情報の一部として音声情報記憶部16に書き込む。 The audio information integration unit 13, speaker or speaker attribute output from the speaker identification unit 5 (for example, sex, etc. of a speaker) also identification result of, in association with the speech content, as part of the audio information written in the voice information storage unit 16. さらに、音声情報統合部13は、放送番組のテーマやジングルや、効果音などの音楽や、複数の単語から構成される人名、地名、組織名、構造物など、特定の事物を指し示す固有表現をも音声情報の一部として統合し音声情報記憶部16に書き込む。 Further, the sound information integration section 13, and the themes and jingles broadcast programs, and music, such as sound effects, names composed of a plurality of words, a place name, organization name, such as structure, the named entities that point to specific things the write in the voice information storage unit 16 and integrated as part of the audio information. なお、音声情報のデータ構造については後述する。 It will be described later the data structure of the audio information.

話題抽出部14は、テキストデータ取得部3が取得したテキストデータをテキストデータ記憶部10から読み出し、このテキストデータを前記音声認識部6から出力された音声認識結果と比較することにより話題を抽出する処理を行なう。 Topic extraction unit 14 reads the text data is text data acquisition unit 3 acquired from the text data storage section 10, extracts the topic by comparing the speech recognition result output the text data from the voice recognition section 6 processing carried out. より具体的には、話題抽出部14は、前記のテキストデータに含まれる所定数の単語組(3つ組など)が音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいてテキストデータと音声認識結果との間の対応付けを行なうことによって、テキストデータから話題を抽出する、なお、話題抽出部14の処理の詳細については、後でフローチャートを参照しながら説明する。 More specifically, topic extraction unit 14 calculates the similarity according to the number of the predetermined number of word pairs contained in the text data (such as triplets) are included in the word of a predetermined number of speech recognition results , by performing the association between the text data and the speech recognition result on the basis of the similarity, extracting topics from the text data, the details of the processing of the topic extraction unit 14, referring to a flowchart later It will be described with.

検索用転置インデックス作成部15は、音声認識部6による音声認識結果に基づき検索用転置インデックス(検索用インデックス)のデータを作成して検索用インデックス記憶部17に書き込む処理を行なう。 Search inverted index creation unit 15 performs a process of writing the data to create a search index storage unit 17 of the search inverted index based on the result of the speech recognition by the speech recognition unit 6 (search index). なお、本実施形態では、検索用転置インデックス作成部15は、ラティス展開・圧縮部12により圧縮されたラティスのデータを基に検索用転置インデックスを作成する。 In the present embodiment, the search inverted index creation unit 15 creates a search inverted index based on lattice data compressed by lattice expansion and compression unit 12. なお、検索用転置インデックスのデータ構造については後述する。 Note that the data structure of the search inverted index is described later.

音声情報記憶部16は、音声情報を記憶する。 Voice information storage unit 16 stores the voice information. ここで、音声情報とは、番組ID、発話開始時刻、発話内容(単語列)のテキスト、話者名、話者性別、音楽(非音声情報)、話題、固有表現を含む情報である。 Here, the voice information, program ID, utterance start time, the text of the speech content (word string), speaker name, speaker gender, music (non-voice information), topic, is information including a unique representation. この音声情報は、話者識別部5や、音声認識部6や、話題抽出部14の各部の処理によって得られた情報である。 The audio information, and speaker identification unit 5, and the speech recognition unit 6, the information obtained by the processing of each of the topic extraction unit 14.

検索用転置インデックス記憶部17は、音声認識結果に基づいて作られる検索用転置インデックスを記憶するものである。 Search inverted index storage unit 17 is configured to store the search inverted index made on the basis of the speech recognition result. この検索用転置インデックスは、単語と、前記音声における発話時刻との対応関係の情報を含んでいる。 The search inverted index includes the word, the information of the correspondence between the utterance time in the voice. ここで、本実施形態における発話時刻とは、番組を識別するための番組IDと発話開始時刻の組み合わせによって特定されるものである。 Here, the utterance time in the present embodiment, which is specified by the combination of the program ID and the utterance start time for identifying the program.

映像音声記憶部18は、映像・音声収録部1によって得られるデジタル動画データファイルを記憶するものである。 Audiovisual storage unit 18 is configured to store the digital moving picture data file obtained by the video and audio recording unit 1. このデジタル動画データファイルは、映像データおよび音声データを含んでいる。 The digital video data file includes video data and audio data.

検索サーバ部19は、音声情報記憶部16と検索用転置インデックス記憶部17と映像音声記憶部18からデータを読み出せるように構成されており、これらのデータを用いて検索クライアント部20からの検索要求に応じた検索処理を行なうとともに、その応答として、検索結果のデータを検索クライアント部20に返す。 Search server unit 19 includes a voice information storage unit 16 is configured to read out the data from the search inverted index storage unit 17 and the video and audio storage unit 18, the search from the search client unit 20 using these data search process performs a in response to a request, as a response, return data for the search result to the search client unit 20. なお、検索結果のデータとは、検索の結果得られる音声情報(音声情報記憶部16から読み出された情報)や、デジタル動画データファイル(映像音声記憶部18から読み出された情報)である。 The retrieval and result data is the audio information obtained search results (the information read out from the voice information storage unit 16) and the digital moving picture data file (information read from the video and audio storage unit 18) .

検索クライアント部20は、利用者からの入力に基づき検索要求を検索サーバ部19に送信するとともに、その応答として検索サーバ部19から返される検索結果のデータを画面等に表示する。 Search client unit 20 sends a search request based on the input from the user to the search server 19, and displays the data of the search results returned from the search server 19 as a response to the screen or the like. これにより、利用者は、音声情報を検索し、検索結果を閲覧することができる。 As a result, the user, to search for audio information, it is possible to view the search results.

図2は、音声情報記憶部16が記憶する音声情報の構造を示す概略図である。 Figure 2 is a schematic diagram showing the structure of a voice information stored in the voice information storage unit 16. 図示するように、音声情報は、表形式のデータであり、番組IDと、発話開始時刻と、発話内容(単語列)と、話者名と、話者性別(話者属性)と、音楽(非音声情報)と、話題と、固有表現の各項目を含む。 As shown in the figure, the voice information is a data table format, and the program ID, the utterance start time, the speech content (word string), and the story's name, the speaker gender (speaker attribute), music ( and non-voice information), including the topic, each item of specific representation. 音楽(非音声情報)は、放送番組のテーマ音楽や、ジングルや、効果音などの音楽である。 Music (non-voice information), and the theme music of the broadcast programs, jingles and, is music, such as sound effects. 固有表現は、複数の単語で構成される表現であり、人名、地名、組織名、構造物などといった特定の事物を指し示すものである。 Named Entity is composed representation of a plurality of words are those indicated personal name, place name, organization name, certain things such as structures.

図3は、検索クライアント部20に設けられている表示装置に表示される画面の構成を示す概略図である。 Figure 3 is a schematic diagram showing the configuration of a screen displayed on a display device provided to the search client unit 20. クライアント検索部20は、検索の結果得られる音声情報およびデジタル動画データファイルの情報(映像と音声)をこの画面により利用者に提示する。 Client search unit 20, information of the search results obtained audio information and digital video data file (video and audio) are presented to the user by the screen.
図示するように、この画面は、大きく3つの要素で構成されている。 As illustrated, the screen is composed of three major elements. その第1は、音声情報が付与された番組一覧を表示するためのウィンドウ(符号113)である。 The first is a window for displaying a list of programs audio information is given (reference numeral 113). そして、第2は、前記の番組一覧から選択された番組の映像・音声を表示するためのウィンドウ(符号111)である。 The second is a window for displaying the video and audio of the selected program from the program list of the (code 111). そして、その第3は、音声認識結果(発話内容)を表示するウィンドウ(符号112)である。 And the third is a window that displays the speech recognition result (speech content) (reference numeral 112).

まず第1の番組一覧のためのウィンドウ113は、同図に示す画面の左側に配置されており、(a)番組の代表的シーンを表わすサムネイル画像の表示エリア(符号102)と、(b)番組のタイトルの表示エリア(符号103)と、(c)番組に含まれる話題一覧(符号104)の各要素からなるものを一番組に対応する組として、複数番組分の表示を行なうようになっている。 First window 113 for program list is first disposed on the left side of the screen shown in the figure, the display area of ​​the thumbnail image representing a typical scene of (a) program (code 102), (b) display area of ​​the program title (reference numeral 103), as a set corresponding to one program to be composed of the elements of the topic list (code 104) included in (c) program, thereby performing a display of a plurality of programs min ing. これら複数番組は縦に並べられており、新しい番組ほど上に、そして古い番組ほど下に表示されるようにしている。 These plurality of programs is organized in columns, on the newer program, and are to be displayed under the older programs. ここで表示される番組タイトルは、元々番組情報収集部2が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。 Program title displayed here are based on data originally acquired program information collecting unit 2, in which is included as metadata in the digital moving picture data file. 検索クライアント部20は、このメタデータの中から番組タイトルを読み出して表示エリア103に表示する。 Search client 20 displays on the display area 103 reads the program title from the metadata. また、ここで表示される話題一覧は、元々話題抽出部14が抽出した情報である。 Moreover, the topic list displayed here is originally information topic extraction unit 14 has extracted. 検索クライアント部20は、音声情報の中から話題のデータを読み出して表示エリア104に一覧表示する。 Search client unit 20, a list is displayed in the display area 104 reads the topic of data from the audio information. また、サムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。 Further, the thumbnail image is properly extracted still image from the digital moving picture data file.

次に、第2の、番組の映像・音声を表示するためのウィンドウ111は、デジタル動画データファイルを再生することで得られる映像を表示するものである。 Next, the second window 111 for displaying the video and audio of the program is to display an image obtained by playing back the digital video data file. 利用者が前記の表示エリア102に表示されたサムネイル画像或いは前記の表示エリア103に表示された番組タイトルをクリックする操作を行なうと、検索クライアント部20は、当該番組のデジタル動画データファイルを番組冒頭部分から再生する。 When the user performs an operation of clicking the program titles displayed in the thumbnail image or the display area 103 displayed on the display area 102 of the search client unit 20, the program beginning digital moving picture data file of the program Play from the part. また、利用者が前記の表示エリア104に表示された話題のいずれかをクリックする操作を行なうと、検索クライアント部20は、当該番組のデジタル動画データファイルを、クリックされた話題に対応する箇所(当該話題の開始点)から再生する。 Further, when the user performs an operation of clicking one of the topics that have been displayed in the display area 104 of the search client unit 20, the portion corresponding to the topic of digital moving picture data file of the program, which has been clicked ( Play from the topic of starting point).

なお、このウィンドウ111の上の部分には、各種の操作ボタン等が表示されており、利用者がこれら操作ボタン等を操作することにより、検索クライアント部20は、番組の再生を開始したり停止したり、或いは再生箇所を変更したりする処理を行なう。 Note that the upper part of this window 111 has various operation buttons and the like are displayed, the user operates the operation buttons or the like, the search client unit 20, the stop or start the playback of the program or, or it performs a process or to change the playback point.
具体的には、符号108は、映像・音声の再生/停止ボタンである。 Specifically, reference numeral 108 is a playback / stop button of the video and audio. 映像・音声が停止されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を開始する。 When the button 108 in a state in which video and audio is stopped is clicked, the search client unit 20 starts reproduction of video and audio. また、映像・音声が再生されている状態のときにこのボタン108がクリックされると、検索クライアント部20は映像・音声の再生を停止させる。 Further, when the button 108 in a state in which video and audio are reproduced is clicked, the search client unit 20 stops the reproduction of the video and audio.
また、符号107は再生位置を現再生位置から開始位置方向に30秒戻すためのボタンであり、符号106は再生位置を現再生位置から開始位置方向に10分戻すためのボタンであり、符号109は再生位置を現再生位置から終了位置方向に30秒進めるためのボタンであり、符号110は再生位置を現再生位置から終了位置方向に10分進めるためのボタンである。 Further, reference numeral 107 is a button for returning 30 seconds starting position direction playback position from the current playback position, reference numeral 106 is a button for returning 10 minutes to the start direction playback position from the current playback position, reference numeral 109 is a button for advancing 30 seconds to the end position direction playback position from the current playback position, reference numeral 110 denotes a button for advancing 10 minutes in the end position direction playback position from the current play location. 利用者がこれらのボタン106〜110のいずれかをクリックすると、検索クライアント部20は、それぞれのボタンに従って映像・音声の再生位置を変更する制御を行なう。 When the user clicks one of these buttons 106 to 110, the search client unit 20 performs control to change the reproduction position of video and audio according to the respective buttons.
また、符号105は、再生位置を開始位置から終了位置までの間の任意の位置に移動させるためのスライダーであり、利用者がこのスライダー105を移動させる操作を行なうと、検索クライアント部20は、スライダー105の移動先の位置に応じた箇所に、映像・音声の再生位置を変更する制御を行なう。 Further, reference numeral 105 is a slider for moving to any position between the start position the reproduction position to the end position, when the user performs an operation for moving the slider 105, the search client 20, at positions corresponding to the destination position of the slider 105, it performs control to change the reproduction position of video and audio.

次に、第3の、ウィンドウ112は、番組に対応する音声認識結果(発話内容)を表示するためのものである。 Next, the third window 112 is for displaying the speech recognition result (speech content) corresponding to the program. 検索クライアント部20は、発話内容のテキストをこのウィンドウ112に表示するとともに、再生中の映像・音声に同期させ、現時点で再生中の位置に対応する発話内容の単語を強調表示する。 Search client unit 20, and displays the text of the speech content in the window 112, in synchronization with the video and audio being reproduced, to highlight the words spoken content corresponding to the playback position at the present time. 強調表示の方法としては、例えば、当該単語の背景を通常背景色とは異なる色で表示(いわゆるハイライト表示)させる方法をとる。 As a method for highlighting, for example, employ a method of displaying in a different color (so-called highlight) is the background of the word with the normal background color. つまり、映像・音声の再生が進むにつれて、順次、ハイライト表示される単語が遷移していく。 That is, as the reproduction of the video and audio advances sequentially, words that are highlighted continue to transition. これは、音声認識部6による音声認識結果を基に、単語毎の発話時刻を記憶しておき、再生時の経過時間に沿って現在発話中の単語をハイライト表示することによって実現する。 This is based on a speech recognition result by the voice recognition section 6 stores the speech time of each word, along with the elapsed time during reproduction is realized by highlighting the word currently being spoken. また、音声情報として話者名あるいは話者属性が得られている場合には、話者名や話者属性を併せて表示するようにしても良い。 In addition, if the speaker name or speaker attribute is obtained as audio information, may be displayed in conjunction with the speaker name, speaker attributes.

さらに、図3に示す画面には、検索のためのテキスト入力部100と検索ボタン101が設けられている。 Further, the screen shown in FIG. 3, the search button 101 is provided with the text input section 100 for the search. 利用者がキーボード等を操作することによりテキスト入力部100に検索語を入力した後に検索ボタン101を押すと、検索クライアント部20は、検索サーバ部19に対して入力された検索語を含んだ検索要求を送信する。 When the user presses the search button 101 after entering a search term in the text input unit 100 by operating the keyboard or the like, the search client unit 20 including a search term entered the search server 19 searches to send a request. 検索サーバ19では、検索語を形態素解析して形態素解析済みの検索語を用いて索引を検索する。 The search server 19 to search the index by using the morphological analysis already search terms a search term and morphological analysis. そして、検索サーバ19からの応答により検索結果のデータが得られると、検索クライアント部20は、前記のウィンドウ113に、番組一覧の代わりに検索結果を表示する。 When the data of the search result by the response from the search server 19 is obtained, the search client unit 20, the window 113 displays the search results in place of the program listings.

図4は、検索結果の表示画面の構成を示す概略図である。 Figure 4 is a schematic diagram showing a configuration of a display screen of search results. 前述の通り、この検索結果は、ウィンドウ113に表示されるものである。 As described above, the search result is to be displayed in the window 113. 同図に示すように、検索結果を表示するときのウィンドウ113は、(a)検索時に用いられた検索語を含む発話に対応する代表的画像をサムネイル画像として表示するための表示エリア(符号120)と、(b)番組のタイトルの表示エリア(符号121)と、(c)当該番組内で上記検索語にマッチした発話の開始時刻の表示エリア(符号122)と、(d)その発話内容の表示エリア(符号123)とを含む。 As shown in the figure, the search window 113 when the result to display the, (a) a display area for displaying a representative image corresponding to the utterance containing the search terms used during the search as a thumbnail image (code 120 and), and (b) the program title display area (reference numeral 121), and (c) display area start time of the utterance that match the search term in the the program (code 122), (d) the utterance contents and a display area (reference numeral 123).
なお、検索クライアント部20は、表示エリア122と表示エリア123を一組として、当該番組内で上記検索語にマッチした発話の出現数分の組の表示を行なう。 The retrieval client 20, as a set of display area 123 and display area 122, performs emergence fraction of sets of display utterance that match the search terms in the program.
また、検索結果として複数の番組がマッチした場合には、検索クライアント部20は、それらそれぞれの番組についての表示を行なう。 When a plurality of programs as a search result matches, the search client unit 20 performs display of their respective programs.
なお、同図に示す表示においても、表示される番組タイトルは、元々番組情報収集部2が取得したデータに基づくものであり、デジタル動画データファイルの中にメタデータとして含まれているものである。 Incidentally, in the display shown in the figure, the program titles displayed is based on data originally acquired program information collecting unit 2, in which is included as metadata in the digital moving picture data file . また、表示されるサムネイル画像は、デジタル動画データファイルから適宜抽出された静止画像である。 Further, the thumbnail images displayed are appropriately extracted still image from the digital moving picture data file.

次に、テキスト収集部3と言語モデル学習部9の詳細な処理手順について説明する。 Next, the detailed procedure of the text collection unit 3 and the language model learning unit 9.
図5は、テキスト収集部3および言語モデル学習部9による処理の手順を示すフローチャートである。 Figure 5 is a flowchart showing a procedure of processing by the text acquisition section 3 and a language model learning unit 9.
ステップS201において、テキスト収集部3は、所定の時間間隔でデータソースチェックを行なう。 In step S201, the text acquisition unit 3 performs data source check at predetermined time intervals. つまり、テキスト収集部3は、例えば放送局のウェブサイトのサーバなどといった外部のコンピュータにアクセスし、前回アクセス時のウェブサイトのデータと比較することによって、今回そこから新規のニュース原稿や話題のテキストデータが得られるか否かをチェックする。 In other words, the text collection unit 3, for example, access to the broadcasting station of the web site server, such as such as an external computer, by comparing the data of the web site at the time of the previous access, there from the new news manuscript and topics this text to check whether or not the data is obtained. そして、新規のデータが得られた場合(ステップS201:YES)には次のステップS202に進み、得られなかった場合(ステップS201:NO)にはステップS201に戻ってさらに前記所定時間経過後にデータソースチェックの処理を繰り返す。 Then, the new case data is obtained in (Step S201: YES) the process proceeds to the next step S202 in the case that can not be obtained (step S201: NO) in the data after a lapse of further predetermined time period returns to the step S201 the process is repeated source check.

次に、ステップS202において、テキスト収集部3は、ステップS201で得られたテキストデータの形態素解析処理を行い、その結果をテキストデータ記憶部10に書き込む。 Next, in step S202, the text acquisition unit 3 performs a morphological analysis of the text data obtained in step S201, and writes the result to the text data storage section 10. ここで、形態素解析処理自体は、既存の技術を利用する。 Here, the morphological analysis process itself takes advantage of the existing technology. このステップでの処理の結果、テキストデータ記憶部10には、単語単位に分割されたテキストデータ(ニュース原稿等)が保存される。 Result of the process in this step, the text data storage unit 10, text data divided into units of words (news manuscript, etc.) are stored.

ステップS204において、言語モデル学習部9は、テキストデータ記憶部10へのデータの蓄積状況を監視し、新規のデータが所定量以上蓄積されたか否かをチェックする。 In step S204, the language model learning unit 9 monitors the storage state of data into the text data storage section 10, the new data is checked whether it is accumulated over a predetermined amount. そして、新規データが所定量以上蓄積されていた場合(ステップS204:YES)には次のステップS205に進み、そうでない場合(ステップS204:NO)にはステップS201の処理に戻る。 When the new data is accumulated over a predetermined amount: the process proceeds to (step S204 YES) the next step S205 in, otherwise (step S204: NO) to return to the process of step S201.

次に、ステップS205において、言語モデル学習部9は、テキストデータ記憶部10から新規データを読み出し、そのデータに基づいて言語モデルを作成する処理を行なう。 Next, in step S205, the language model learning unit 9 reads the new data from the text data storage section 10 performs a process of creating a language model based on the data. このとき、言語モデル学習部9は単語辞書記憶部11から読み出す辞書データを参照する。 At this time, the language model learning unit 9 refers to the dictionary data to be read from the word dictionary storing unit 11. 前述の通り、ここで作成される言語モデルはnグラムであり、言語モデル学習部9は、テキストデータ記憶部10から読み出した形態素解析済みのテキストデータを基に、連続するn個の単語列ごとの出現頻度をカウントし、統計的処理をすることによって言語モデルのデータを作成する。 As described above, the language model created herein are n-gram language model learning unit 9, based on morphological analyzed text data read from the text data storage section 10, each n words successive rows counting the frequency of appearance of, creating a data language model by statistical processing. そして、その結果に基づき、言語モデル学習部9は、言語モデル記憶部8のデータを書き換える。 Based on the results, the language model learning unit 9 rewrites the data of the language model storage unit 8.

そして、ステップS206において、言語モデル学習部9は、音声認識部6に対して、更新された言語モデル記憶部8のデータをロードし直すように通知する。 Then, in step S206, the language model learning unit 9, the speech recognition unit 6 notifies to re-load the data in the language model storage unit 8 that is updated. その通知に基づき、音声認識部6が言語モデルをロードしなおすことにより、音声認識部6は常に最新の言語モデルを用いて音声認識の処理を行なうことができる。 Based on the notification, by the voice recognition section 6 reload the language model, it is possible to perform speech recognition processing using the always up to date language model speech recognition unit 6.

図6は、話題抽出部14による処理の手順を示すフローチャートである。 Figure 6 is a flowchart showing a procedure of processing by the topic extraction unit 14. 以下では、話題抽出部14による処理の詳細を説明する。 Hereinafter, details of the processing by the topic extraction unit 14.
この処理においては、話題抽出部14は、ウェブサイトから得られたニュース原稿等のテキストデータの冒頭m単語と、音声認識部6から取得した発話内容における発話開始からのm単語とを比較し、両者間の類似度を計算することによって音声認識結果がどのテキストデータと一致するものであるかを判定する。 In this process, topic extraction unit 14 compares the beginning m words of the text data, such as news document obtained from the website, and m words from the utterance start in speech content acquired from the voice recognition section 6, It determines in which speech recognition result coincides with any text data by calculating the similarity between them. なお、mは正整数である。 Incidentally, m is a positive integer.
なお、話題抽出部14による処理を行なうに当たり、音声認識部6は、音声認識結果に対して1から始まる一連の番号を予め付与する。 Note that when performing the processing by the topic extraction unit 14, the voice recognition section 6 previously assigned a series of numbers starting from 1 for the speech recognition result. また、テキスト収集部3がウェブサイトから収集したテキストのうちの最新のK個(Kは正整数)のファイルを話題抽出部14による処理の対象とし、これらK個のファイルにも1から始まる一連の番号が付与されている。 In addition, the series is a text collection unit 3 latest of the K out of the text, which was collected from the web site (K is a positive integer) the subject of processing the files of by the topic extraction unit 14, starting from 1 to these the K file the number has been granted.

以下、同図のフローチャートに沿って説明する。 Hereinafter, it will be described with reference to the flowchart of FIG.
ステップS301において、話題抽出部14は、音声認識部6から音声認識結果(発話内容)を取得する。 In step S301, the topic extraction unit 14 acquires the speech recognition result (speech content) from the speech recognition unit 6. ここで取得する音声認識結果は、事後確率による最尤単語列である。 Speech recognition result to get here is a maximum likelihood word sequence by the posterior probability.
次に、ステップS302において、話題抽出部14は、変数nを1に設定(初期化)する。 Next, in step S302, the topic extraction unit 14 sets the variable n to 1 (initialization).
そして、ステップS303において、話題抽出部14は、第n発話の冒頭m単語取り出す。 Then, in step S303, topic extraction unit 14 extracts the beginning m words of the n utterance.
ステップS304において、話題抽出部14は、テキストデータ記憶部10から読み出した第k番目(k=1,2,・・・,K)のテキストデータの冒頭m単語と、ステップS303において取り出したm単語との間の類似度を計算する。 In step S304, the topic extraction unit 14, the k-th read from the text data storage section 10 (k = 1,2, ···, K) and the beginning m words of the text data, m word extracted in step S303 calculating the similarity between. 第n発話の冒頭m単語と第k番目のテキストデータの冒頭m単語との間の類似度は、例えば次のように定義される。 Similarity between the beginning m words beginning m words and the k-th text data of the n utterance is defined as follows, for example. 即ち、その類似度は、k番目のテキストデータのm単語に含まれる単語3つ組(単語組)が、第n発話のm単語に含まれる数とする。 That is, the degree of similarity, the word triples contained in m words of k-th text data (word set) be the number contained in m words of the n utterance.
ステップS305において、話題抽出部14は、算出された類似度が閾値以上か否かを判定する。 In step S305, the topic extraction unit 14, the calculated similarity is equal to or greater than or equal to the threshold value. なお、この閾値は、予め適切に定められ設定されている。 Note that this threshold value is previously appropriately determined set. そして、類似度がこの閾値以上の場合(ステップS305:YES)はステップS307に進む。 When the similarity is greater than or equal to this threshold value (step S305: YES), the process proceeds to step S307. そして、類似度がこの閾値未満の場合(ステップS305:NO)はステップS306に進む。 When the similarity is less than the threshold (step S305: NO), the process proceeds to step S306.
ステップS306において、話題抽出部14は、変数nをインクリメントする(n←n+1)。 In step S306, topic extraction unit 14 increments the variable n (n ← n + 1). ステップS306の処理を終えると、ステップS303の処理に戻る。 Upon completion of the processing of step S306, the process returns to step S303.
ステップS307においては、話題抽出部14は、この第n番目の発話を、第k番目の話題の開始点とする。 In step S307, the topic extraction unit 14, the n-th speech, the starting point of the k-th topic. 即ち、話題抽出部14は、音声認識結果のデータに話題境界情報を付与する。 In other words, topic extraction unit 14 assigns a topic boundary information to the data of the speech recognition result. これにより、音声認識結果を話題境界にて分割することが可能になるとともに、分割された結果に対して話題を関連付けて記憶させることができる。 Thereby, it becomes possible to divide the speech recognition result at topic boundary, it can be stored in association with the topic on the divided result.
以上述べたステップS301からS307までの一連の処理を、話題抽出部14は、第1番目から第K番目までの各々のテキストデータに対して行なう。 The series of processes from S307 from step S301 mentioned above, topic extraction unit 14 is performed for each of the text data from the first to K-th.

図7,図8,図9は、ラティス展開・圧縮部12による処理の手順を示す一連のフローチャートである。 7, 8, 9 are a series of flowcharts showing a procedure of processing by the lattice expansion and compression unit 12. ラティス展開・圧縮部12は、前掲の[非特許文献1]および[非特許文献2]に記載されている従来法を改良した方法により音声認識結果のラティスの展開および圧縮を行なう。 Lattice expansion and compression section 12, [Non-patent Document 1] cited above and [Non-Patent Document 2] performing Lattice expansion and compression of the speech recognition result by a method obtained by improving a conventional method described in.
音声認識部6は、音声認識結果を表わすラティス構造(有向非巡回グラフ)のデータを出力する。 Speech recognition unit 6 outputs the data of the lattice structure representing the speech recognition result (directed acyclic graph). このデータは、音声認識結果の単語をエッジとし、開始点、中間点、終了点のいずれかをノードとする有向グラフである。 This data word of the speech recognition result as an edge, the starting point, intermediate point, a directed graph and node one of the end point. 開始点と終了点のノードは1つずつ存在し、中間点のノードは通常は複数存在する。 Node start and end points are present one, the nodes of the intermediate point is normally there are multiple. これらのノードは、それぞれ所定の時刻に対応している。 These nodes are respectively corresponding to a predetermined time. つまり、ノードAを始端としてノードBを終端とするエッジが存在するとき、ノードAの時刻が当該エッジに対応する単語の始端時刻であり、ノードBの時刻が当該エッジに対応する単語の終端時刻である。 That is, a node when an edge is present for the Node B terminates as starting A, a start time of a word time of the node A corresponds to the edge, end time of a word which time the Node B corresponding to the edges it is. すべてのノードは連結されており、開始点のノードからはエッジをたどって全ての中間点のノードに到達可能であり、任意の中間点のノードからはエッジをたどって終了点のノードに到達可能である。 All nodes are connected, from the node of the start point is reachable to the node of all the intermediate points by tracing the edge, from the nodes of an arbitrary intermediate point reachable node endpoint following the edge it is. 音声認識部6による出力は確率を伴う音声認識結果の仮説であり、開始点と終了点との間において並列する経路(つまり時刻的に重なりを有する複数の経路)は互いに対立する仮説に対応するものである。 Output by the speech recognition unit 6 is a hypothesis of a speech recognition result with probability (multiple paths with overlap That time basis) parallel to the path between the start and end points corresponds to the hypothesis of conflict with each other it is intended.
なお、本実施形態では、このようなラティス構造を、ノードおよびエッジをそれぞれエンティティとするリレーショナルデータで表現し、各処理部間での受け渡しを行なう。 In the present embodiment, such a lattice structure, the nodes and edges, respectively expressed by the relational data to the entity, transfers between the processing units.
また、このラティスは、隣り合う2つの単語を結合するバイグラム(bigram)言語モデルに基づくものである。 Further, the lattice is based on bigram (bigram) language model combining the two words adjacent.

以下、このフローチャートに沿って説明する。 Hereinafter will be described along the flow chart.
まず、図7のステップS401において、ラティス展開・圧縮部12は、音声認識部6から上記のラティス構造の音声認識結果データを取得する。 First, in step S401 of FIG. 7, the lattice expansion and compression unit 12 acquires the speech recognition result data of the lattice structure from the speech recognition unit 6.
次に、ステップS402において、ラティス展開・圧縮部12は、上で取得したラティスを、連続する3つの単語を結合するトライグラム(trigram)言語モデルに基づくラティスに展開する。 Next, in step S402, the lattice expansion and compression section 12, a lattice obtained above, to expand the lattice based on trigram (trigram) language model to bind the three words continuous. この展開処理自体は前述の従来技術を利用する。 The expansion process itself utilizes the aforementioned prior art.

次に、ステップS403において、ラティス展開・圧縮部12は、上で得られたラティスをフォワード・バックワード(forward−backward)アルゴリズムにより走査し、事後確率を計算する。 Next, in step S403, the lattice expansion and compression unit 12 scans the lattice obtained above by the forward and backward (forward-backward) algorithm to calculate the posterior probability. そして、事後確率が最大となる経路(最尤系列)を取得し、圧縮ラティスの基礎となるグラフpを構成する。 The posterior probability to get the maximum and becomes the path (maximum likelihood sequence), constitutes a graph p underlying compression lattice.

次に、ステップS404からS409までにおいて、ラティス展開・圧縮部12は、エッジのクラスタリング処理を行なう。 Then, in steps S404 to S409, the lattice expansion and compression unit 12 performs clustering processing of the edge. このクラスタリング処理の詳細は次の通りである。 The details of this clustering process is as follows.
即ち、ラティス展開・圧縮部12は、ステップS404において、エッジ集合E{e 1 ,e ,e ,e ,・・・}から、この集合要素を事後確率の降順に並べ替えたリスト{e' 1 ,e' ,e' ,e' ,・・・,e' ,・・・}を生成する。 That is, the lattice expansion and compression unit 12 in step S404, the list edge collection E {e 1, e 2, e 3, e 4, ···} from the sorted the set elements in the descending order of the posterior probability { e '1, e' 2, e '3, e' 4, ···, e 'm, to produce a ...}.
そして、ラティス展開・圧縮部12は、ステップS405において、クラスタリングのための変数nを1に初期化する。 The lattice expansion and compression unit 12 in step S405, initializes a variable n for clustering.
次のステップS406からS409までは、上記リストの要素を順次走査する処理である。 From the next step S406 to S409, a process of sequentially scanning the elements of the list.
ラティス展開・圧縮部12は、上記リストの番目のエッジe' を取り出したとき、発話時刻の重なりが予め定められた所定の閾値よりも大きく、且つエッジ上の単語表記が同一となる巡回済み(走査済み)のm番目のエッジe' (n>m)があれば(ステップS406:YES)、ステップS407において、エッジe' をエッジ集合Eから取り除くとともに、エッジe' の事後確率にエッジe' の事後確率を加える。 Lattice expansion and compression section 12, when taking out the n-th edge e 'n listed above, larger than a predetermined threshold value overlap utterance time is predetermined, and cyclic word representation on the edge are the same 'if m (n> m) (step S406: YES), in step S407, the edge e' requires m th edge e of (scanned) along with removing n from the edge set E, the posterior edge e 'm Add posterior probability of the edge e 'n the probability. なお、ステップS407における判定結果が否定的である場合には、ステップS407をスキップして次のステップS408に進む。 The determination result in step S407 is the case is negative, the process proceeds skips steps S407 to the next step S408.
そして、ラティス展開・圧縮部12は、次のステップS408において、クラスタリングのための変数nをインクリメントする(n←n+1)。 The lattice expansion and compression unit 12 in the next step S408, increments the variable n for clustering (n ← n + 1).
そして、ステップS409において、ラティス展開・圧縮部12は、エッジクラスタリングが全て終了したか否かを判定する。 Then, in step S409, the lattice expansion and compression unit 12 determines whether the ending edge clustering all. そして、全て終了していない場合(ステップS409:NO)には、残りのエッジ集合について同様の処理を行なうためにステップS406に戻る。 Then, if not completed: (step S409 NO), the process returns to step S406 to perform the same processing for the remaining edge collection. 全て終了していた場合(ステップS409:YES)には、次のステップS410に進む。 If all have been completed: (step S409 YES), the process proceeds to the next step S410.

次に、図8のステップS410からS417まででは、ラティス展開・圧縮部12は、エッジの集約を行う。 Next, in the step S410 of FIG. 8 to S417, the lattice expansion and compression unit 12 performs the aggregation edge.
まずステップS410において,上記のエッジ集合Eの要素を事後確率の降順に並べかえたエッジリストを生成する。 First, in step S410, it generates an edge list rearranged in descending order of the posterior probability elements of the edge set E.
そして、ラティス展開・圧縮部12は、ステップS411において、集約のための変数nを1に初期化する。 The lattice expansion and compression unit 12 in step S411, initializes a variable n for the aggregate.

ステップS412において、ラティス展開・圧縮部12は、上記のエッジリストのn番目のエッジe' の事後確率が定められた閾値以上か否かを判定する。 In step S412, the lattice expansion and compression unit 12 determines whether the n-th whether an edge e 'n posterior probability determined threshold above which the above edge list. そして、エッジe' の事後確率が定められた閾値に満たない場合(ステップS412:NO)はステップS413に進み、その事後確率が閾値以上の場合(ステップS412:YES)はステップS414に進む。 When less than the threshold posterior probability of edge e 'n is defined (step S412: NO), the process proceeds to step S413, if the posterior probability is equal to or larger than the threshold (step S412: YES), the process proceeds to step S414.
ステップS413に進んだ場合、ラティス展開・圧縮部12は、e' をエッジ集合Eから取り除くとともに、ステップS416に進む。 When step S413, the lattice expansion and compression section 12, together with the removing e 'n from the edge set E, the flow proceeds to step S416.
ステップS414に進んだ場合、S414において、ラティス展開・圧縮部12は、エッジe' に対し発話時刻の重なりが所定の閾値以上となるエッジe' (但し、n>m)を探索する。 When step S414, in S414, the lattice expansion and compression section 12, an edge e 'edges n overlapping speech time to is equal to or greater than a predetermined threshold value e' m (where, n> m) to explore.
そのようなe' が存在すれば(ステップS414:YES)、次のステップS415において、ラティス展開・圧縮部12は、エッジe' の始終端ノードをエッジe' の始終端ノードに変更する。 'If there is m (step S414: YES), at the next step S415, the lattice expansion and compression section 12, an edge e' such e change the start and end edge nodes of m to starting and end node of the edge e 'n to.
ステップS414における判定結果が否定的であった場合は、ステップS415の処理をスキップして、次のS416に進む。 If the result of the determination in step S414 is negative, it skips the processing of step S415, the process proceeds to the next S416.
ステップS416においては、変数nをインクリメントする(n←n+1)。 In step S416, it increments the variable n (n ← n + 1).
そして、ステップS417において、ラティス展開・圧縮部12は、集約処理がすべて完了したか否かを判定する。 Then, in step S417, the lattice expansion and compression unit 12 determines whether the aggregation process has been completed. エッジ集合中で昇順に全てのエッジについて上のステップS415の処理を終えている場合(ステップS417:YES)には次のステップS418の処理に進み、まだ残っているエッジがある場合(ステップS417:NO)にはステップS412に戻って次のエッジについての処理を行なう。 If after the process of step S415 on all of the edges in ascending edge collection in: If (step S417 YES) the process proceeds to the next step S418, there is an edge still remaining (Step S417: NO), the process returns to step S412 performs the processing for the next edge.

そして、図9のステップS418からS429まででは、ラティス展開・圧縮部12は、前記のクラスタリングおよび集約により得られたエッジ集合を系列pにマージしていくことで圧縮ラティスを得る。 Then, in the step S418 of FIG. 9 to S429, the lattice expansion and compression unit 12 obtains the compressed lattice by going to merge the edge collection obtained by the clustering and aggregation in series p.
まずステップS418において、ラティス展開・圧縮部12は、ラティスのノード集合をトポロジカルオーダーで並べかえたリストを得る。 First, in step S418, the lattice expansion and compression unit 12 obtains a list of rearranged node set of lattice in topological order.
そしてステップS419において、マージのための変数kを1に初期化する。 In step S419, it initializes a variable k for merging.
そしてステップS420において、ラティス展開・圧縮部12は、ノードv を始点とするエッジのリストをエッジ集合Eから生成する。 In step S420, the lattice expansion and compression unit 12 generates a list of edges starting from the node v k from the edge set E.
そしてステップS421において、変数l(エル)を1に初期化する。 In step S421, it initializes variables l and (El) to 1.
そしてステップS422において、ラティス展開・圧縮部12は、エッジリストのl(エル)番目のエッジe について、発話時刻の重なりが最大となる圧縮ラティスのエッジf を探索する。 In step S422, the lattice expansion and compression section 12, the edge list l (el) th edge e l, overlapping speech time to search the compressed lattice edge f h as the maximum.
そしてステップS423においてこのf が訪問済みであるか否かを判定する。 Then a decision is made as to whether the f h is visited at step S423. 訪問済みであれば(ステップS423:YES)次のステップS424に進み、未訪問の場合(ステップS423:NO)はステップS425に進む。 If visited (step S423: YES) the process proceeds to the next step S424, if unvisited (step S423: NO), the process proceeds to step S425.
ステップS424に進んだ場合、ラティス展開・圧縮部12は、f の終端ノードを2つに分け、新たなノードfを圧縮ラティス上に作成し、エッジe の単語表記と事後確率をコピーする。 When step S424, the lattice expansion and compression unit 12 divides the terminal node of the f h into two, creating a new node f on compressed lattice, copies the word notation and the posterior probability of the edge e l . そしてステップS426に進む。 Then, the process proceeds to step S426.
ステップS425に進んだ場合、f の始端・終端を結ぶ新たなエッジfを生成して、エッジe の単語表記と事後確率をコピーする。 When step S425, generates a new edge f connecting the start-end of a f h, copies the word notation and the posterior probability of the edge e l. なお、この際、f は訪問済みとする。 It should be noted that, in this case, f h shall be visited. そしてステップS426に進む。 Then, the process proceeds to step S426.
ステップS426においては、変数l(エル)をインクリメントする(l←l+1)。 In step S426, it increments the variable l (el) (l ← l + 1).
ステップS427ではエッジリスト終了判定を行い、終了している場合(ステップS427:YES)にはステップS428に進み、未終了の場合(ステップS427:NO)にはステップS422に戻る。 Step S427 performs edge list end determination in, If completed (step S427: YES), the process proceeds to step S428, if not terminated: the (step S427 NO) returns to step S422.
また、ステップS428においても別の終了判定を行い、終了している場合(ステップS428:YES)にはこのフローチャート全体の処理を終了し、未終了の場合(ステップS428:NO)にはステップS429に進む。 Also, make another end determination even in step S428, if it is finished (step S428: YES) in the processing is ended for the entire flow, if not ended (step S428: NO) in the step S429 move on.
ステップS429においては、変数kをインクリメントし(k←k+1)、ステップS420に戻る。 In step S429, it increments the variable k (k ← k + 1), the flow returns to step S420.
つまり、ラティス展開・圧縮部12は、ステップS422からS425までの操作を、エッジ集合Eのすべてのエッジについて行い、圧縮ラティスを得る。 That is, the lattice expansion and compression section 12, the operations from step S422 to S425, performed for all edges of edge set E, to obtain the compressed lattice.

ラティス展開・圧縮部12による上述の処理のポイントは、要するに、次の(1)〜(3)の通りである。 Point of the above processing by the lattice expansion and compression section 12 is short, is as follows: (1) to (3).
(1)ラティス上のエッジについて、発話開始時刻・発話終了時刻がオーバーラップするエッジのうち、同一の表記を持つエッジをクラスタリングする(つまり、エッジの始端と終端を事後確率の大きなもので代表させ、事後確率の和を大きな方(代表させたほう)に与える)。 (1) The edge on the lattice, one utterance start time and the utterance end time of an edge overlapping, clustering edges with the same notation (that is, to represent the start and end of the edge large posterior probability , give the sum of the posterior probabilities in the larger (better to a representative)).
(2)ラティス上のエッジについて,オーバーラップするエッジをクラスタリングする(つまり、同一の始端ノードおよび終端ノードを持つようにする)。 (2) for the edge of the lattice, clustering edges overlapping (i.e., to have the same starting node and end node).
(3)ラティス上のエッジについて、トポロジカルな順番でノードを訪問し、リンクをマージしていく。 (3) edge on the Lattice, visit the nodes in topological order, continue to merge the link.
これにより、従来技術による方法よりも高速に、且つ高圧縮率で、音声認識結果のラティスデータを圧縮することができる。 Thus, faster than the prior art methods, and a high compression ratio, it is possible to compress the lattice data of the speech recognition result.

以上説明した手順の処理により、ラティス展開・圧縮部12は、展開されたラティスを基に、これを圧縮し、圧縮ラティス(コンフュージョンネットワーク)を作成する。 Thus the process of the procedure described, lattice expansion and compression section 12, based on the deployed lattice, which is compressed to create compressed lattice (confusion network).
なお、これによって得られた圧縮ラティスに関して、隣接するノード間を結ぶエッジの事後確率の総和が1を超える場合には、それらのエッジの各々の事後確率を前記事後確率の総和で割る処理を行なう。 Regarding compression lattice obtained by this, when the sum of the posterior probabilities of the edges connecting the adjacent nodes is greater than 1, the process of dividing each of the posterior probabilities of their edges in terms of the total the posterior probability carried out. 逆に、隣接するノード間を結ぶエッジの事後確率の総和が1に満たない場合には、それらノード間に空の単語表記を持つ新たなエッジを生成し、エッジの事後確率の総和が1になるように、新たに生成されたエッジの事後確率値を設定する。 Conversely, if the sum of the posterior probabilities of the edges connecting the adjacent nodes is less than 1 generates a new edge with empty words representation between the nodes, the sum of the posterior probabilities of the edge 1 so as to set a posterior probability values ​​for the newly created edge. ここで、新たに生成されたエッジの事後確率値は、1−(他のエッジの事後確率の総和)である。 Here, the posterior probability values ​​of the newly generated edges is 1- (sum of the posterior probabilities of the other edges).

音声認識結果のラティスデータの量は膨大なものとなるが、上述したようにラティス展開・圧縮部12がラティスを圧縮することにより、扱い易いサイズのデータにすることができ、処理の高速化を図れる。 The amount of lattice data of the speech recognition result is enormous, by lattice expansion and compression unit 12 as described above to compress the lattice, can be data of manageable size, high-speed processing achieved.

図10は、検索用転置インデックス作成部15による処理の手順を示すフローチャートである。 Figure 10 is a flowchart showing a procedure of processing by the search inverted index creation unit 15. 以下、このフローチャートに沿って検索用インデックスの作成の方法を説明する。 Hereinafter, a method for creating a search index along this flowchart.
まずステップS501において、検索用転置インデックス作成部15は、ラティス展開・圧縮部12から、コンパクトに圧縮された1発話分のラティスのデータを取得する。 First, in step S501, the search inverted index creation unit 15, the lattice expansion and compression section 12, acquires one utterance of lattice data compressed compact. 以下のステップにおいては、このラティスに含まれる各エッジについての処理を行なう。 In the following step, performing processing for each edge included in the lattice.
次に、ステップS502において、検索用転置インデックス作成部15は、現エッジに単語表記が割り当てられているか否かを判定する。 Next, in step S502, the search inverted index creation unit 15 determines whether the word notation assigned to the current edge. 割り当てられている場合(ステップS502:YES)には次のステップS503に進み、割り当てられていない場合(ステップS502:NO)にはステップS504に飛ぶ。 If it assigned (step S502: YES) the process proceeds to the next step S503 in the case that is not allocated (step S502: NO) to fly to the step S504.
そしてステップS503において、検索用転置インデックス作成部15は、現エッジに割り当てられている単語表記に基づいて、検索用転置インデックス記憶部17に1レコードを追加する形で更新を行なう。 Then, in step S503, the search inverted index creation unit 15, on the basis of the word notation assigned to the current edge, updates in the form of adding one record search inverted index storage unit 17.

図11は、検索用転置インデックス記憶部17が記憶する転置インデックスのデータ構成を示す概略図である。 Figure 11 is a schematic diagram showing the data structure of the inverted index stored in the search inverted index storage unit 17. 図示するように、この転置インデックスは、表形式のデータであり、単語表記IDと番組IDと発話開始時刻の各項目を有している。 As illustrated, the inverted index is a tabular data, and has the items of word notation ID and program ID and the utterance start time. 単語表記IDは、単語表記を一意に識別するためのデータであり、エッジに割り当てられた単語のIDが未付与の場合、新たなIDを符号なし32ビット整数として付与する。 Word notation ID is data for uniquely identifying the word notation, ID word assigned to the edge if not granted, to impart a new ID as an unsigned 32-bit integer. 番組IDは、音声認識の対象となっている放送番組を一意に識別するためのデータである。 Program ID is data for uniquely identifying a broadcast program that is the object of speech recognition. そして、発話開始時刻は、1つの発話を単位として、当該番組内における当該発話の開始位置を表わす時刻情報である。 Then, the utterance start time, in units of one utterance is time information indicating the start position of the utterance in the the program. この時刻情報は、番組開始時からの相対時刻で表わしても良いし、現実の日時(例えば日本標準時)で表わしても良い。 This time information may be represented by a relative time from the time of program start, may be expressed in real time (e.g., Japanese Standard Time). 転置インデックスがこのような構造をとることにより、この検索用転置インデックス記憶部17から、番組ごとの単語表記の出現回数を容易に取り出すことができる。 By inverted index takes such a structure, from this search inverted index storage unit 17, it can be taken out the number of occurrences of the word notation each program easily. つまり、検索サーバ部19は、前述の検索処理を行なう際に、この検索用転置インデックス記憶部17から読み出す情報を活用することができる。 That is, the search server 19 may be in performing the search process described above, utilizing the information to be read from the search inverted index storage unit 17.

図10に戻って、次にステップS504において、検索用転置インデックス作成部15は、与えられた1発話分のラティスにおいて全てのエッジの処理を終えたか否かを判定する。 Returning to FIG. 10, then in step S504, the search inverted index creation unit 15 determines whether or not completed the processing of all edges in one utterance of lattice given. 全てのエッジの処理を終えている場合(ステップS504:YES)にはこのフローチャート全体の処理を終了し、まだ残っているエッジが存在する場合(ステップS504:NO)には次のエッジを処理するためにステップS502に戻る。 If it is finished with all edges: the (step S504 YES) and ends the processing of the entire flow chart, when there is an edge still remaining: the (step S504 NO) to process the next edge It returns to step S502 in order.

なお、上述した音声情報抽出装置の機能は、電子回路によって実現される。 The function of the audio information extraction device described above is realized by an electronic circuit.
また特に、同装置の機能を、単数又は複数のストアドプログラム方式のコンピュータで実現することが好適である。 Particularly, the function of the apparatus, it is preferable to realize a computer of one or more of the stored program system. その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。 In this case, by recording a program for realizing the control function on a computer-readable recording medium, to read the program recorded in this recording medium into a computer system, it may be realized by executing. なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。 Here, the "computer system" includes an OS and hardware such as peripheral devices. また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The "computer-readable recording medium" refers to flexible disks, magneto-optical disks, ROM, portable media such as a CD-ROM, and a storage device such as a hard disk built in the computer system. さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。 Furthermore, the "computer-readable recording medium", such as a communication line when transmitting a program via a communication line such as a network or a telephone line such as the Internet, during the short time, holds the dynamic program things, such as a volatile memory inside a computer system serving as a server or a client in that case, may also include those that retain a constant time program. また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 The program may be one for implementing part of the above functions, it may further be realized by a combination of already the recorded with a program to function the computer system described above.

<実施例> <Example>
前記の実施形態の動作を検証するため、実際にシステムを構築した。 To verify the operation of the embodiment it was actually built systems. その概要を以下に記載する。 It describes the outline below.
映像・音声収録部1は、テレビチューナーから映像および音声の信号を取得できる構成とし、予め設定した日時に設定されたチャンネルの放送を実際に受信して取り込むようにした。 Video and audio recording unit 1 includes a configuration capable of acquiring video and audio signals from the TV tuner, and to capture and receive the broadcast channel that is set to the date and time previously set actually. 日時およびチャンネルの設定は、NHK(日本放送協会)のウェブサイトにある放送番組表や放送波に重畳されたEPGに基づいて自動的に行われる。 Setting the date and time and channel is automatically performed on the basis of the NHK is superimposed on the broadcast program guide and broadcast wave in the (Japan Broadcasting Corporation) Web site of the EPG. 一方で、利用者インタフェースを通して画面から行なえるようにもした。 On the other hand, it was also for the perform from the screen through the user interface. また、随時、利用者からのボタン操作により、映像および音声の取得の開始/終了を行なうとともに、チャンネル設定を変更できるようにした。 Also, from time to time, the button operation from the user, and performs the start / end of the acquisition of the image and sound, and to change the channel configuration.
テキスト収集部3は、インターネットを介してNHKのウェブサイトから放送番組に関するテキスト情報を取得できるようにした。 Text collection unit 3, was to be able to get the text information related to broadcast programs from NHK web site via the Internet.
音声情報抽出装置50を構成する各機能は、コンピュータ用のプログラムを記述し、LANで連携する複数台のコンピュータ上でそれらのプログラムを実行させることによって実現した。 Each functional configuration of voice information extracting device 50 describes a program for a computer, on multiple computers to work with LAN realized by executing the programs.
また、検索クライアント部20においては、検索結果が前述の方法で表示され、そこから利用者が選んだ映像および音声を再生表示させるようにした。 Also, the search client unit 20, the search results are displayed by the aforementioned method to so as to reproduce and display video and audio chosen by the user from there.
また、番組に出演するアナウンサー等のそれぞれの音響的特徴を話者データ記憶部4に予め記憶させておいたことにより、話者識別を高精度で行ない、音声認識結果のテキストとともに話者名を表示させることができた。 Also, by the respective acoustic features of announcer like to appear on the program stored beforehand in the speaker data storage unit 4, performs speaker identification with high accuracy, the talker name with text of the speech recognition result it was able to be displayed.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Have been described above in detail with reference to the accompanying drawings, embodiments of the present invention, the specific configuration is not limited to this embodiment also includes designs and the like without departing from the scope of the invention.

本発明を利用することにより、放送番組や映像・音声リソースを索引化し、容易に検索・閲覧できるようにすることが可能となる。 By utilizing the present invention, it is possible to index the broadcast program and video and audio resources, to easily search and browse.
また、本発明を利用することにより、抽出された音声情報をメタデータ制作システムに提供し、放送サービスを行なうことが可能となる。 Moreover, by utilizing the present invention, the extracted audio information to provide the metadata production system, it is possible to perform the broadcasting service.
また、本発明を利用することにより、音声認識装置で用いる統計的音響モデルおよび統計的言語モデルを構築するために、音声データおよび関連するテキストデータを効率的に収集することが可能となる。 Moreover, by utilizing the present invention, in order to build the statistical acoustic models and statistical language models used by the speech recognition apparatus, it is possible to efficiently collect audio data and associated text data.

1 映像・音声収録部2 番組情報収集部3 テキスト収集部4 話者データ記憶部5 話者識別部6 音声認識部7 音響モデル記憶部8 言語モデル記憶部9 言語モデル学習部10 テキストデータ記憶部11 単語辞書記憶部12 ラティス展開・圧縮部(ラティス圧縮部) 1 video and audio recording unit 2 program information collecting unit 3 text collection unit 4 speaker data storage unit 5 speaker identification section 6 speech recognition unit 7 acoustic model storage unit 8 language model storage unit 9 language model learning unit 10 text data storage unit 11 word dictionary storage unit 12 lattice expansion and compression unit (lattice compression unit)
13 音声情報統合部14 話題抽出部15 検索用転置インデックス作成部(検索用インデックス作成部) 13 audio information integration section 14 topic extraction unit 15 searches for the transposed index creation unit (search index creation unit)
16 音声情報記憶部17 検索用転置インデックス記憶部(検索用インデックス記憶部) 16 voice information storage unit 17 searches for the transposed index storage unit (search index storage unit)
18 映像音声記憶部19 検索サーバ部20 検索クライアント部50 音声情報抽出装置 18 video and audio storage unit 19 searches the server unit 20 searches the client unit 50 audio information extraction apparatus

Claims (5)

  1. 映像および音声を記憶する映像音声記憶部と、 A video and audio storage unit for storing the video and audio,
    単語と、音声における発話時刻との対応関係を含んでなる検索用インデックスを記憶する検索用インデックス記憶部と 発話時刻と、単語の列である発話内容と、話題と、話者名または話者属性の少なくともいずれかと、を関連付けてなる音声情報を記憶する音声情報記憶部と 音声の音響的特徴を統計的に表わした音響モデルを記憶する音響モデル記憶部と、 And words, and the speech time search index storage unit for storing the search index, which comprises the corresponding relationship between the utterance time in the speech, and the speech content is the word of the column, and the topic, speaker name or speaker attribute an acoustic model storing unit for storing acoustic models at least either, and the associated audio information storing unit and the acoustic features of speech that stores voice information formed by statistically expressed in,
    単語の出現頻度を統計的に表わした言語モデルを記憶する言語モデル記憶部と、 And a language model storage unit for storing a statistical representation language model word frequency,
    話者毎または話者属性毎の音響的特徴を統計的に表した話者データを予め記憶する話者データ記憶部と、 A speaker data storage unit for statistically prestored speaker data representing acoustic features of speaker or each speaker for each attribute,
    映像および音声を外部から取得して前記映像音声記憶部に書き込む映像音声収録部と、 A video and audio recording unit for writing into the video and audio storage unit acquires the video and audio from the outside,
    前記音響モデル記憶部から読み出した前記音響モデルと前記言語モデル記憶部から読み出した前記言語モデルとを用いて、前記映像音声収録部が取得した前記音声の音声認識処理を行ない、音声認識結果を出力する音声認識部と、 Said acoustic said model read from the storage unit the read from the acoustic model and the language model storage unit by using the language model, wherein performs speech recognition processing of the speech video and audio recording unit obtains, outputs a speech recognition result and a voice recognition unit that,
    前記話者データ記憶部から読み出した前記話者データを用いて、前記映像音声収録部が取得した前記音声に対応する話者名または話者属性を算出して出力する話者識別部と、 And using said speaker the speaker data read from the data storage unit, the speaker identification unit for calculating and outputting a speaker name or speaker attribute corresponding to said audio video voice recording unit is acquired,
    前記映像音声収録部が取得した前記映像および前記音声に関連するテキストデータを外部から取得するテキストデータ取得部と、 Text data acquisition unit for acquiring the text data associated with the video and the audio the video and audio recording unit is acquired from the outside,
    前記テキストデータ取得部が取得した前記テキストデータと前記音声認識部により出力された前記音声認識結果とを比較することにより話題を抽出する話題抽出部と、 A topic extraction unit for extracting the topic by comparing the speech recognition result output to the text data to which the text data acquisition unit has acquired by the speech recognition unit,
    前記音声認識結果と、前記話題と、前記話者名または前記話者属性の少なくともいずれか、を統合してなる音声情報を前記音声情報記憶部に書き込む音声情報統合部と、 And the speech recognition result, and the topic, and the audio information integration unit for writing the audio information obtained by integrating at least one, of the talker name or the speaker attributes to the voice information storage unit,
    前記音声認識結果に基づき前記検索用インデックスのデータを作成して前記検索用インデックス記憶部に書き込む検索用インデックス作成部と、 A search index creation unit for creating data of the search index based on the speech recognition result is written in the search index storage unit,
    検索語による検索要求に基づき前記検索用インデックス記憶部および前記音声情報記憶部を検索し、前記検索語に該当する前記映像および前記音声に関連付けられた前記音声情報を前記音声情報記憶部から読み出して検索元に対して検索結果として提示するとともに、前記映像音声記憶部に記憶されている当該映像および当該音声を再生可能とする検索サーバ部と、 The search index storage unit based on the search request by search terms and searches the voice information storage unit, the voice information associated with the image and the sound corresponding to the search word is read from the voice information storage unit with presented as a search result to the search source, a search server unit which enables reproduction of the video and the sound stored in the video and audio storage unit,
    を具備することを特徴とする音声情報抽出装置。 Audio information extraction apparatus characterized by comprising a.
  2. 前記話題抽出部は、前記テキストデータに含まれる所定数の単語組が前記音声認識結果の所定数の単語中に含まれる数により類似度を算出し、この類似度に基づいて前記テキストデータと前記音声認識結果との間の対応付けを行なうことによって、前記テキストデータから前記話題を抽出する、 The topic extraction unit, the predetermined number of words set included in the text data to calculate the similarity by the number contained in the word of a predetermined number of the speech recognition result, the said text data based on the similarity by performing the association between the speech recognition result, and extracts the topic from the text data,
    ことを特徴とする請求項1に記載の音声情報抽出装置。 Audio information extraction apparatus according to claim 1, characterized in that.
  3. 前記テキストデータ取得部が取得した前記テキストデータの中における単語の出現頻度を算出することによって前記言語モデル記憶部に記憶されている前記言語モデルを更新する言語モデル学習部を更に具備することを特徴とする請求項1または2に記載の音声情報抽出装置。 Further comprising a language model learning unit for updating the language model stored in the language model storage unit by calculating the frequency of words in among the text data to which the text data acquisition unit acquires audio information extraction apparatus according to claim 1 or 2,.
  4. 前記音声認識部が前記音声認識結果として出力する単語仮説の有向非巡回グラフを表わすラティスデータを圧縮する処理を行なうラティス圧縮部を更に具備し、 Further comprising a lattice compression unit for performing a process of compressing the lattice data representing a directed acyclic graph of word hypotheses which the speech recognition unit outputs as the speech recognition result,
    前記検索用インデックス作成部は、前記ラティス圧縮部によって圧縮された前記ラティスデータに基づいて前記検索用インデックスを作成する、 The search index creation unit is configured to create a search index based on the lattice data compressed by the lattice compression unit,
    ことを特徴とする請求項1から3までのいずれか一項に記載の音声情報抽出装置。 Audio information extraction apparatus according to any one of claims 1 to 3, characterized in that.
  5. 利用者からの入力に基づく検索語を用いて前記検索サーバ部に対して前記検索要求を送信し、前記検索サーバ部からの前記検索結果を画面に表示し、更に利用者からの操作に基づいて、該当する前記映像および前記音声を再生する検索クライアント部を更に具備することを特徴とする請求項1から4までのいずれか一項に記載の音声情報抽出装置。 Transmitting the search request to the search server unit using a search word based on the input from the user, and displays the search results from the search server unit to the screen, further based on an operation from a user audio information extraction device according to any one of claims 1, characterized by comprising a search client unit for reproducing the video and the audio applicable further to 4.
JP2009111587A 2009-04-30 2009-04-30 Audio information extraction device Active JP5296598B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009111587A JP5296598B2 (en) 2009-04-30 2009-04-30 Audio information extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009111587A JP5296598B2 (en) 2009-04-30 2009-04-30 Audio information extraction device

Publications (2)

Publication Number Publication Date
JP2010262413A true JP2010262413A (en) 2010-11-18
JP5296598B2 true JP5296598B2 (en) 2013-09-25

Family

ID=43360435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009111587A Active JP5296598B2 (en) 2009-04-30 2009-04-30 Audio information extraction device

Country Status (1)

Country Link
JP (1) JP5296598B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5723711B2 (en) * 2011-07-28 2015-05-27 日本放送協会 Voice recognition apparatus and a voice recognition program
US20140373082A1 (en) * 2012-02-03 2014-12-18 Sharp Kabushiki Kaisha Output system, control method of output system, control program, and recording medium
CN104639869B (en) * 2014-12-09 2018-04-20 广东威创视讯科技股份有限公司 Lenovo video conferencing system prompt manner

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1016985A3 (en) * 1998-12-30 2004-04-14 Xerox Corporation Method and system for topic based cross indexing of text and audio
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information

Also Published As

Publication number Publication date Type
JP2010262413A (en) 2010-11-18 application

Similar Documents

Publication Publication Date Title
Ng et al. Subword-based approaches for spoken document retrieval
Hauptmann et al. Informedia: News-on-demand multimedia information acquisition and retrieval
US6263308B1 (en) Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
Glass et al. Recent progress in the MIT spoken lecture processing project
US7206303B2 (en) Time ordered indexing of an information stream
US5664227A (en) System and method for skimming digital audio/video data
Morgan et al. The meeting project at ICSI
US7634407B2 (en) Method and apparatus for indexing speech
Chelba et al. Retrieval and browsing of spoken content
US7292979B2 (en) Time ordered indexing of audio data
US20030187632A1 (en) Multimedia conferencing system
US7809568B2 (en) Indexing and searching speech with text meta-data
US20070174326A1 (en) Application of metadata to digital media
US20020052740A1 (en) Database annotation and retrieval
US20020052870A1 (en) Indexing method and apparatus
Brown et al. Open-vocabulary speech indexing for voice and video mail retrieval
US20060173916A1 (en) Method and system for automatically generating a personalized sequence of rich media
US5835667A (en) Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US7240003B2 (en) Database annotation and retrieval
US6580437B1 (en) System for organizing videos based on closed-caption information
US20070055493A1 (en) String matching method and system and computer-readable recording medium storing the string matching method
US6172675B1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US8126897B2 (en) Unified inverted index for video passage retrieval
US7983915B2 (en) Audio content search engine
US20130124984A1 (en) Method and Apparatus for Providing Script Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250