JP5912729B2 - Speech recognition apparatus, speech recognition program, and speech recognition method - Google Patents
Speech recognition apparatus, speech recognition program, and speech recognition method Download PDFInfo
- Publication number
- JP5912729B2 JP5912729B2 JP2012067192A JP2012067192A JP5912729B2 JP 5912729 B2 JP5912729 B2 JP 5912729B2 JP 2012067192 A JP2012067192 A JP 2012067192A JP 2012067192 A JP2012067192 A JP 2012067192A JP 5912729 B2 JP5912729 B2 JP 5912729B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- word
- input
- unit
- multimedia information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、マルチメディア情報に含まれる音声を認識する音声認識装置、音声認識プログラム、及び音声認識方法に関する。 The present invention relates to a speech recognition apparatus, a speech recognition program, and a speech recognition method for recognizing speech included in multimedia information.
従来から、生放送による動画や音声の配信や、あらかじめ録画、録音された動画や音声のストリーミング等によるオンデマンド配信等により、各種のマルチメディア情報が広く提供されるようになりつつある。 2. Description of the Related Art Various types of multimedia information have been widely provided by distribution of moving images and sounds by live broadcasting, on-demand distribution by streaming of previously recorded and recorded moving images and sounds, and the like.
ここで、マルチメディア情報を聴取するユーザが、聴取をしながら当該マルチメディア情報に対するコメントを入力すると、当該マルチメディア情報を聴取する他のユーザにそのコメントが提示されるコメント配信システムが提案されている(特許文献1参照)。 Here, a comment distribution system is proposed in which when a user who listens to multimedia information inputs a comment on the multimedia information while listening, the comment is presented to other users who listen to the multimedia information. (See Patent Document 1).
一方、あらかじめ用意された候補語とその出現確率とを用いて、単語単位で音声認識を行う技術が提案されている(非特許文献1参照)。さらに、音声と、ディクテーションによって当該音声から書き起こされたテキストと、の時間的な対応関係を解析して、音声認識の精度を上げる技術が提案されている(特許文献2参照)。 On the other hand, a technique has been proposed in which speech recognition is performed in units of words using candidate words prepared in advance and their appearance probabilities (see Non-Patent Document 1). Furthermore, a technique for improving the accuracy of speech recognition by analyzing temporal correspondence between speech and text transcribed from the speech by dictation has been proposed (see Patent Document 2).
多数のマルチメディア情報が提供される現状では、マルチメディア情報に含まれる動画に対する字幕の付与や、マルチメディア情報の要約のテキストによる提供や、マルチメディア情報のテキストによる検索などの要望が高まりつつある。したがって、マルチメディア情報に含まれる音声のテキスト化をより一層適切に行えるようにしたい、との要望は強い。 In the current situation where a large amount of multimedia information is provided, there is an increasing demand for subtitles for videos included in the multimedia information, provision of multimedia information summary texts, and retrieval of multimedia information texts. . Therefore, there is a strong demand for making it possible to more appropriately convert the voice included in the multimedia information into text.
一方で、音声中に出現する単語は、話題や、時代の流行や、発言者ならびに聴取者の嗜好等によって変化するため、このような変化に即応できるようなディクテーション技術が求められている。 On the other hand, since words appearing in speech change according to topics, trends in the times, preferences of speakers and listeners, etc., a dictation technique that can immediately respond to such changes is required.
本発明は、このような課題を解決しようとするものであり、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を適切に認識する音声認識装置、音声認識プログラム、及び音声認識方法を提供することを目的とする。 The present invention is intended to solve such a problem, and uses a comment attached to multimedia information to appropriately recognize a voice included in the multimedia information, a voice recognition program, It is another object of the present invention to provide a speech recognition method.
上記目的を達成するため、本発明の第1の観点に係る音声認識装置は、
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、を備える、
ことを特徴とする。
In order to achieve the above object, a speech recognition apparatus according to the first aspect of the present invention provides:
An accumulator for accumulating comments input by the user while listening to audio generated by playing multimedia information;
An extraction unit that extracts words that appear in a sentence set including the accumulated comments and candidate words including co-occurrence words of the word in the sentence set;
A voice recognition unit that recognizes a voice generated by reproducing the multimedia information based on the extracted candidate word;
It is characterized by that.
また、第1の観点に係る音声認識装置において、
前記文集合は、前記マルチメディア情報を聴取したユーザが閲覧した文書に出現する文を含む
としても良い。
In the speech recognition apparatus according to the first aspect,
The sentence set may include a sentence that appears in a document viewed by a user who has listened to the multimedia information.
また、第1の観点に係る音声認識装置において、
前記抽出部は、前記候補語のそれぞれの出現尤度を算定し、
前記音声認識部は、前記音声から認識された音素と前記候補語を表す音素との一致度及び当該候補語の出現尤度に基づいて、音声認識する、
としても良い。
In the speech recognition apparatus according to the first aspect,
The extraction unit calculates the likelihood of appearance of each of the candidate words,
The speech recognition unit recognizes speech based on the degree of coincidence between the phoneme recognized from the speech and the phoneme representing the candidate word and the appearance likelihood of the candidate word.
It is also good.
また、第1の観点に係る音声認識装置において、
前記候補語のうち、前記コメントに出現する単語には、当該コメントが入力された入力時点が対応付けられ、
前記音声認識部は、前記入力時点が対応付けられている候補語に対しては、当該候補語に対応付けられた入力時点と、前記音素が発せられた発音時点との合致度を求め、当該求められた合致度にさらに基づいて、音声認識する、
としても良い。
In the speech recognition apparatus according to the first aspect,
Of the candidate words, words appearing in the comment are associated with an input time point when the comment is input,
For the candidate word associated with the input time point, the speech recognition unit obtains a degree of match between the input time point associated with the candidate word and the pronunciation time point when the phoneme is emitted, Voice recognition based on the degree of match
It is also good.
また、第1の観点に係る音声認識装置において、
前記入力時点と、前記発音時点と、は、前記マルチメディア情報の再生が開始されてからの再生時間により表現される、
としても良い。
In the speech recognition apparatus according to the first aspect,
The input time point and the sound generation time point are expressed by a reproduction time after the reproduction of the multimedia information is started.
It is also good.
また、第1の観点に係る音声認識装置において、
前記合致度は、前記入力時点と前記発音時点との差及び前記マルチメディア情報の再生が可能となった時点と当該ユーザがマルチメディア情報の再生を開始した時点との差に基づいて定められる、
としても良い。
In the speech recognition apparatus according to the first aspect,
The degree of match is determined based on a difference between the input time point and the sound generation time point, and a difference between a time point when the multimedia information can be played back and a time point when the user starts playing the multimedia information.
It is also good.
また、本発明の第2の観点に係る音声認識プログラムは、
コンピュータを、
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、として機能させる、
ことを特徴とする。
A speech recognition program according to the second aspect of the present invention is:
Computer
An accumulator for accumulating comments input by the user while listening to audio generated by playing multimedia information;
An extraction unit that extracts words that appear in a sentence set including the accumulated comments and candidate words including co-occurrence words of the word in the sentence set;
Based on the extracted candidate words, function as a speech recognition unit that recognizes speech generated by playing the multimedia information,
It is characterized by that.
さらに、本発明の第3の観点に係る音声認識方法は、
蓄積部、抽出部、及び音声認識部を備える音声認識装置が実行する方法であって、
前記蓄積部が、ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積ステップ、
前記抽出部が、前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出ステップ、
前記音声認識部が、前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識ステップ、を有する、
ことを特徴とする。
Furthermore, the speech recognition method according to the third aspect of the present invention provides:
A method performed by a speech recognition apparatus including an accumulation unit, an extraction unit, and a speech recognition unit,
An accumulating step in which the accumulating unit accumulates a comment input by the user while listening to a sound uttered by reproduction of multimedia information;
An extraction step in which the extraction unit extracts a word that appears in a sentence set including the accumulated comments and a candidate word including a co-occurrence word of the word in the sentence set;
The speech recognition unit has a speech recognition step for recognizing speech generated by reproducing the multimedia information based on the extracted candidate words.
It is characterized by that.
本発明に係る音声認識装置、音声認識プログラム、及び音声認識方法によれば、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を適切に認識できる。 According to the voice recognition device, the voice recognition program, and the voice recognition method according to the present invention, the voice included in the multimedia information can be appropriately recognized using the comment attached to the multimedia information.
以下、本発明の実施例について添付図面を参照しつつ説明する。 Embodiments of the present invention will be described below with reference to the accompanying drawings.
<実施例1>
本発明の実施例1に係る音声認識装置100は、図1に示すような音声認識システム1を構成する。
<Example 1>
A
音声認識システム1は、音声認識装置100の他に、例えば、インターネットなどのコンピュータ通信網10(以下単に、通信網10という)と、通信網10に接続された端末装置20、30、及び40と、で構成される。
In addition to the
端末装置20から40は、例えば、LCD(Liquid Crystal Display)などの表示部と、スピーカなどの音声出力部と、キーボード及びマウスなどの入力部と、を備えたパーソナル・コンピュータでそれぞれ構成される。
The
また、端末装置20は、例えば、ウェブカメラなどの撮像装置21と、例えば、マイクロフォンなどの音声収集装置22と、に接続されている。
In addition, the
音声認識装置100は、撮像装置21で撮影された動画及び音声収集装置22で収集された音声を表すマルチメディア情報を端末装置20から受信し、受信したマルチメディア情報を端末装置20から40へ配信する。これにより、撮像装置21で撮影された動画及び音声収集装置22で収集された音声が番組の映像及び音声として放送される。
The
ここでは、音声認識装置100は、端末装置20のユーザが出演する番組を、当該番組の収録から所定時間以内に端末装置20及び30へ放送する(以下、生放送するという)として説明を行う。尚、端末装置20のユーザは、放送された当該番組を視聴しながら出演を行う。
Here, the
またここでは、音声認識装置100は、生放送された番組(以下、生放送番組という)を、当該番組の収録から所定時間経過後に端末装置40へ放送する(以下、再放送するという)として説明を行う。
Further, here, the
次に、図2を参照して、音声認識装置100のハードウェア構成について説明する。
音声認識装置100は、図2に示すようなサーバ機で構成され、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、ハードディスク104、メディアコントローラ105、LANカード(Local Area Network)106、ビデオカード107、LCD(Liquid Crystal Display)108、キーボード100i、スピーカ110、及びタッチパッド111で構成される。
Next, the hardware configuration of the
The
CPU101は、ROM102又はハードディスク104に保存されたプログラムに従ってプログラムを実行することで、音声認識装置100の全体制御を行う。RAM103は、CPU101によるプログラムの実行時において、処理対象とするデータを一時的に記憶するワークメモリである。
The
ハードディスク104は、各種のデータを蓄積したテーブルを記憶する蓄積部である。尚、音声認識装置100は、ハードディスク104の代わりに、フラッシュメモリを備えても良い。
The
メディアコントローラ105は、フラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)、及びブルーレイディスク(Blu-ray Disc)(登録商標)を含む記録媒体から各種のデータ及びプログラムを読み出す。 The media controller 105 reads various data and programs from recording media including flash memory, CD (Compact Disc), DVD (Digital Versatile Disc), and Blu-ray Disc (registered trademark).
LANカード106は、通信網10を介して接続する端末装置20から40との間でデータを送受信する。キーボード100i及びタッチパッド111は、ユーザの操作に応じた信号を入力する。
The
ビデオカード107は、CPU101から出力されたデジタル信号に基づいて画像を描画(つまり、レンダリング)すると共に、描画された画像を表す画像信号を出力する。LCD108は、ビデオカード107から出力された画像信号に従って画像を表示する。なお、音声認識装置100は、LCD108の代わりに、PDP(Plasma Display Panel)又はEL(Electroluminescence)ディスプレイを備えても良い。スピーカ110は、CPU101から出力された信号に基づいて音声を出力する。
The
次に、音声認識装置100の有する機能について説明する。
CPU101は、図3に示す生放送処理を実行することにより、図4に示す入力部120、保存部130、及び出力部140として機能する。また、CPU101は、図2に示したハードディスク104と協働して、蓄積部190として機能する。
Next, functions of the
The
図4に示す入力部120は、図2に示すLANカード106が受信した各種の情報を入力する。保存部130は、入力部120で入力された各種の情報を蓄積部190へ保存する。出力部140は、入力部120で入力された各種の情報を、配信先を指定してLANカード106へ出力する。蓄積部190は、保存部130によって保存された各種の情報を蓄積する。
The
次に、蓄積部190に蓄積される各種情報について説明する。
蓄積部190は、放送された番組の書誌的事項が保存される、図5に示す放送テーブルを記憶している。放送テーブルには、番組の放送を識別する放送IDと、当該番組の放送開始日時と、当該放送のシフト時間と、当該番組で放送された動画及び音声を表すマルチメディア情報のパスと、が対応付けられたデータが複数保存される。尚、番組の放送開始日時とは、番組の放送が開始された日時をいう。また、放送のシフト時間は、当該放送が生放送の場合、値「0」であり、当該放送が再放送の場合、当該再放送の開始日時から生放送の開始日時を減算した値である。
Next, various information stored in the
The
また、蓄積部190は、番組の動画若しくは音声に対するコメントが保存される、図6に示すコメントテーブルを記憶している。コメントテーブルには、番組の放送IDと、当該番組に対するコメントを識別するコメントIDと、当該コメントの入力時点と、当該コメントと、コメントしたユーザを識別するユーザIDと、が対応付けられたデータが複数保存される。尚、入力時点は、番組の放送が開始した時点からの経過時間で表される。
In addition, the
次に、図4に示す入力部120、保存部130、及び出力部140で行われるCPU101の動作について説明する。
Next, operations of the
ユーザは、音声認識装置100のキーボード109に対して、生放送の開始を指示する操作(以下、生放送開始指示操作という)を行う。次に、ユーザは、キーボード109に対して、放送を開始する予定の日時(以下、放送開始予定日時という)と、放送を終了する予定の日時(以下、放送終了予定日時という)と、を指示する操作を行う。
The user performs an operation for instructing the start of live broadcast (hereinafter referred to as a live broadcast start instruction operation) on the
CPU101は、キーボード109によって、生放送開始指示操作に応じた操作信号を入力されると、図3に示す生放送処理の実行を開始する。
When an operation signal corresponding to a live broadcast start instruction operation is input from the
生放送処理の実行を開始すると、入力部120は、放送IDを生成し、キーボード109から入力される操作信号に基づいて、ユーザの操作で指定された放送開始予定日時及び放送終了予定日時を取得する(ステップS01)。
When the execution of the live broadcast process is started, the
次に、保存部130は、例えば、OS(Operating System)が管理するシステム日時を参照し、参照したシステム日時が、放送開始予定日時を経過した日時であるか否かを判別する(ステップS02)。このとき、保存部130は、放送開始予定日時を経過していないと判別すると(ステップS02;No)、所定時間スリープした後に、ステップS02の処理を繰り返す。 Next, the storage unit 130 refers to, for example, a system date and time managed by an OS (Operating System), and determines whether or not the referred system date and time is a date and time when the scheduled broadcast start date and time has passed (step S02). . At this time, if the storage unit 130 determines that the scheduled broadcast start date and time has not elapsed (step S02; No), the process proceeds to step S02 after sleeping for a predetermined time.
ステップS02において、保存部130は、放送開始予定日時を経過したと判別すると(ステップS02;Yes)、参照したシステム日時を放送開始日時とする。また、保存部130は、生放送であるので、当該番組のシフト時間を値「0」とする。さらに、保存部130は、当該番組の動画及び音声を表すマルチメディア情報が保存される電子ファイルのパスを生成し、生成したパスに電子ファイルを作成する。次に、保存部130は、放送IDと、放送開始日時と、シフト時間と、パスと、を対応付けて、図5の放送テーブルへ追加保存する(ステップS03)。 In step S02, when the storage unit 130 determines that the scheduled broadcast start date / time has elapsed (step S02; Yes), the stored system date / time is set as the broadcast start date / time. Since the storage unit 130 is a live broadcast, the shift time of the program is set to a value “0”. Further, the storage unit 130 generates an electronic file path in which multimedia information representing the moving image and audio of the program is stored, and creates an electronic file in the generated path. Next, the storage unit 130 associates the broadcast ID, the broadcast start date and time, the shift time, and the path, and additionally stores them in the broadcast table of FIG. 5 (step S03).
次に、保存部130は、ソフトウェアタイマをスタートさせて、番組の放送開始からの経過時間を計時し始める(ステップS04)。 Next, the storage unit 130 starts a software timer and starts counting the elapsed time from the start of program broadcasting (step S04).
ここで、放送開始予定日時を経過したので、端末装置20のユーザは、端末装置20に接続された撮影装置21に撮影を開始させ、かつ音声収集装置22に音声の収集を開始させる操作を、端末装置20に行うとして説明する。
Here, since the scheduled broadcast start date and time has passed, the user of the
端末装置20は、当該操作に応じて、撮影装置21の撮影及び音声収集装置22の音声収集を開始させる。次に、端末装置20は、例えば、出演者の姿などを撮影した動画を表すデータ(以下、動画データという)を撮影装置21から入力し始める。また、端末装置20は、例えば、出演者の発言などの音声を表す電気信号(以下、音声信号という)を音声入力装置22から入力し始める。その後、端末装置20は、入力した音声信号に基づいて音声データを生成し、生成した音声データと、撮影装置21から入力した動画データと、を、データの入力日時及び生成日時で対応付けたマルチメディア情報を音声認識装置100へ送信し始める。
The
次に、入力部120は、図2に示したLANカード106から、端末装置20からLANカード106が受信したマルチメディア情報を入力する(ステップS05)。
Next, the
次に、保存部130は、入力されたマルチメディア情報を、前述のパスにある電子ファイルに追加保存する(ステップS06)。 Next, the storage unit 130 additionally stores the input multimedia information in the electronic file in the path described above (step S06).
その後、出力部140は、入力されたマルチメディア情報を、端末装置20及び30を宛先として、図2に示したLANカード106に出力する(ステップS07)。その後、LANカード106は、マルチメディア情報を端末装置20及び30へ配信(つまり、生放送)する。
Thereafter, the
ここで、端末装置20及び30は、音声認識装置100からマルチメディア情報を受信すると、マルチメディア情報で表される動画を表示する、図7に示す視聴画面を表示する。次に、端末装置20及び30は、マルチメディア情報を再生した動画を、視聴画面の動画表示領域AMに表示し、再生した音声を音声出力装置から出力する。
Here, when receiving the multimedia information from the
ここでは、端末装置20のユーザは、撮影装置21の正面に向った状態で、「都政が混乱するので」という内容の発言をしたとして説明を行う。このため、図2に示す視聴画面には、端末装置20のユーザが発言する様子を正面から撮影した動画が表示され、端末装置20及び30から「都政が混乱するので」という音声が出力される。
Here, a description will be given assuming that the user of the
その後、番組を視聴した端末装置20及び端末装置30のユーザは、視聴した番組のコメントを入力させる操作を端末装置30に行っても良いし、行わなくて良い。このとき、ユーザが端末装置30に当該操作を行うと、端末装置30は、コメントを入力し、入力したコメントを表すコメント情報と、コメントしたユーザのユーザIDと、を、音声認識装置100へ送信する。
Thereafter, the user of the
図3に示すステップS07が実行された後に、入力部120は、ステップS05と同様の処理を実行することで、マルチメディア情報を入力する(ステップS08)。
After step S07 shown in FIG. 3 is executed, the
その後、入力部120は、図2に示したLANカード106から出力される信号に基づいて、LANカード106がコメント情報を受信したか否かを判別する(ステップS09)。
Thereafter, the
このとき、入力部120は、LANカード106がコメント情報を受信しなかったと判別すると(ステップS09;No)、ステップS06及びステップS07と同様の処理を実行することで、コメント情報の保存及び出力を行う(ステップS10及びステップS11)。
At this time, if the
これに対して、入力部120は、LANカード106がコメント情報を受信したと判別すると(ステップS09;Yes)、LANカード106が受信したコメント情報と、ユーザIDと、を、LANカード106から入力する(ステップS12)。
In contrast, when the
その後、保存部130は、ソフトウェアタイマを参照し、生放送の開始日時からの経過時間を取得する(ステップS13)。次に、保存部130は、取得した経過時間をコメントの入力時点とする(ステップS14)。その後、保存部130は、コメント情報で表されるコメントのコメントIDを生成する。 After that, the storage unit 130 refers to the software timer and acquires the elapsed time from the start date and time of live broadcasting (step S13). Next, the storage unit 130 sets the acquired elapsed time as a comment input time (step S14). Thereafter, the storage unit 130 generates a comment ID of the comment represented by the comment information.
次に、保存部130は、番組の放送IDと、当該番組に対するコメントの入力時点及びコメントIDと、当該コメントと、当該コメントを発したユーザのユーザIDと、を、対応付けて、図6のコメントテーブルに追加保存する(ステップS15)。 Next, the storage unit 130 associates the broadcast ID of the program, the input time and comment ID of the comment for the program, the comment, and the user ID of the user who issued the comment, as shown in FIG. It is additionally stored in the comment table (step S15).
その後、出力部140は、入力されたコメント情報を、端末装置20及び30を宛先として、図2に示したLANカード106に出力する(ステップS16)。その後、LANカード106は、コメント情報を端末装置20及び30へ配信する。
Thereafter, the
端末装置20及び30は、コメント情報を音声認識装置100から受信すると、コメント情報で表されるコメントを、図7に示す視聴画面のコメント表示領域ACに表示する。
When receiving the comment information from the
次に、保存部130は、ステップS12で入力されたコメント情報で表されるコメントを、ステップS08で入力されたマルチメディア情報で表される動画に合成する(ステップS17)。 Next, the storage unit 130 synthesizes the comment represented by the comment information input at step S12 with the moving image represented by the multimedia information input at step S08 (step S17).
その後、保存部130は、コメントが合成された動画を表すマルチメディア情報を、前述のパスにあるファイルに追加保存する(ステップS18)。 Thereafter, the storage unit 130 additionally stores the multimedia information representing the moving image with the combined comment in the file in the above-described path (step S18).
次に、出力部140は、コメントが合成されたマルチメディア情報を、端末装置20及び30を宛先として、図2に示したLANカード106に出力する(ステップS19)。その後、LANカード106は、マルチメディア情報を端末装置20及び30へ配信する。
Next, the
端末装置20及び30は、マルチメディア情報を音声認識装置100から受信すると、マルチメディア情報を再生し、コメントが合成された動画を、図7に示す視聴画面の動画表示領域AMに表示する。
When the
ここでは、端末装置30を使用する視聴者は、出力された音声「都政が混乱するので」を聴取し、当該音声に対するコメント「混乱し過ぎだろ」を端末装置30に入力させたとして説明を行う。また、当該視聴者は、視聴画面に表示された出演者の映像を視認し、出演者の氏名に言及するコメント「佐藤一郎きたー!」を端末装置30に入力させたとして説明を行う。このため、図7に示す視聴画面のコメント表示領域ACには、「混乱し過ぎだろ」及び「佐藤一郎きたー!」というコメントが表示される。また、動画表示領域AMには、出演者の正面像に対して「混乱し過ぎだろ」及び「佐藤一郎きたー!」というコメントが合成された動画が表示される。
Here, it is assumed that a viewer who uses the
ステップS11若しくはステップS19が実行された後に、入力部120は、システム日時を参照し、参照したシステム日時が、ステップS01で取得した生放送終了予定日時を経過した日時であるか否かを判別する(ステップS20)。このとき、入力部120は、生放送終了予定日時を経過していないと判別すると(ステップS20;No)、ステップS08から上記処理を繰り返す。
After step S11 or step S19 is executed, the
ステップS20において、入力部120は、生放送終了予定日時を経過したと判別すると(ステップS20;Yes)、生放送処理の実行を終了する。
In step S20, when the
次に、CPU101の動作について、音声認識装置100が、既に生放送した番組を再放送し、端末装置40のユーザが当該番組を視聴する場合を例に挙げて説明する。
Next, the operation of the
ここで、端末装置40のユーザは、生放送の開始から所定時間経過後に、生放送された番組の再放送を要求するリクエスト(以下、再放送リクエストという)を音声認識装置100へ送信させる操作を端末装置40に行う。端末装置40は、当該操作に応じて再放送リクエストを音声認識装置100へ送信する。
Here, the user of the
CPU101は、図2に示したLANカード106が再放送リクエストを受信すると、図8に示す再放送処理の実行を開始する。
When the
先ず、入力部120は、放送IDを生成し、LANカード106から、受信された再放送リクエストを入力する。次に、入力部120は、再放送リクエストから、再放送が求められた生放送番組の放送ID、及び再放送の開始を求める日時(以下、再放送要求日時という)を取得する(ステップS31)。
First, the
次に、保存部130は、システム日時を参照し、参照したシステム日時が、生放送開始要求日時を経過した日時であるか否かを判別する(ステップS32)。このとき、保存部130は、再放送開始要求日時を経過していないと判別すると(ステップS32;No)、所定時間待機した後に、ステップS32の処理を繰り返す。 Next, the storage unit 130 refers to the system date and time, and determines whether or not the referenced system date and time is the date and time when the live broadcast start request date and time has passed (step S32). At this time, if it is determined that the rebroadcast start request date has not elapsed (step S32; No), the storage unit 130 waits for a predetermined time and then repeats the process of step S32.
ステップS32において、保存部130は、再放送開始要求日時を経過したと判別すると(ステップS32;Yes)、システム日時を参照し、参照したシステム日時を、再放送の放送開始日時とする。また、保存部130は、再放送が求められた生放送番組の放送IDに対応付けられた放送開始日時とパスとを、図5に示した放送テーブルから検索する。その後、保存部130は、再放送の放送開始日時と、生放送の放送開始日時と、の差異を算出し、算出した差異をシフト時間とする。次に、保存部130は、再放送の放送IDと、当該再放送の放送開始日時と、当該再放送のシフト時間と、再放送された生番組のパスと、を対応付けて、図5の放送テーブルへ追加保存する(ステップS33)。 In step S32, when determining that the rebroadcast start request date / time has passed (step S32; Yes), the storage unit 130 refers to the system date / time and sets the referred system date / time as the rebroadcast start date / time. Further, the storage unit 130 searches the broadcast table shown in FIG. 5 for the broadcast start date and time and the path associated with the broadcast ID of the live broadcast program for which rebroadcast is requested. Thereafter, the storage unit 130 calculates a difference between the broadcast start date and time of the rebroadcast and the broadcast start date and time of the live broadcast, and sets the calculated difference as the shift time. Next, the storage unit 130 associates the broadcast ID of the rebroadcast, the broadcast start date and time of the rebroadcast, the shift time of the rebroadcast, and the path of the rebroadcast live program, as shown in FIG. It is additionally stored in the broadcast table (step S33).
次に、保存部130は、ステップS04と同様の処理を実行することで、再放送開始日時からの経過時間の計時を開始する(ステップS34)。 Next, the preservation | save part 130 starts the measurement of the elapsed time from a rebroadcast start date by performing the process similar to step S04 (step S34).
次に、入力部120は、前述のパスにある電子ファイルから、所定サイズのマルチメディア情報を読み出す(ステップS35)。
Next, the
その後、出力部140は、読み出されたマルチメディア情報を、端末装置40を宛先として、図3に示したLANカード106に出力する(ステップS37)。その後、LANカード106は、マルチメディア情報を端末装置40へ送信する。端末装置40は、受信したマルチメディア情報を再生することで(いわゆる、タイムシフト再生)、端末装置30のユーザが入力したコメントが合成された動画を表示し、音声を出力する。
Thereafter, the
その後、端末装置40のユーザは、再放送された番組を視聴し、番組に対するコメントを入力させる操作を端末装置40に行っても良いし、行わなくて良い。
Thereafter, the user of the
次に、入力部120は、ステップS35と同様の処理を実行し、マルチメディア情報を読み出す(ステップS38)。
Next, the
その後、入力部120は、図3に示したステップS09と同様の処理を実行することで、LANカード106がコメント情報を受信したか否かを判別する(ステップS39)。
Thereafter, the
このとき、入力部120は、LANカード106がコメント情報を受信しなかったと判別すると(ステップS39;No)、ステップS37の処理と同様の処理を実行することで、ステップS38で読み出されたマルチメディア情報の出力を行う(ステップS41)。
At this time, if the
ステップS39において、入力部120は、LANカード106がコメント情報を受信したと判別すると(ステップS39;Yes)、図3のステップS12からステップS17までの処理と同様の処理を実行する(ステップS42からステップS47)。これにより、ステップS38で読み出されたマルチメディア情報で表される動画に、ステップS42で入力されたコメント情報で表されるコメントが合成されたマルチメディア情報が生成される。
In step S39, when the
次に、保存部130は、前述のパスにある電子ファイルに保存されたマルチメディア情報の内で、ステップS38で読み出されたマルチメディア情報を、ステップS47で生成されたマルチメディア情報に書き換える(ステップS48)。 Next, the storage unit 130 rewrites the multimedia information read in step S38 among the multimedia information stored in the electronic file in the above-described path with the multimedia information generated in step S47 ( Step S48).
その後、出力部140は、図3に示したステップS19と同様の処理を実行する(ステップS49)。これにより、端末装置40へ、端末装置40のユーザが入力したコメントが合成された動画を表すマルチメディア情報が送信される。
Thereafter, the
ステップS41若しくはステップS49の処理が実行された後に、入力部120は、前述のパスにある電子ファイルからマルチメディア情報を読み出す位置(以下、読出位置という)を、読み出したマルチメディア情報のサイズだけ後側にシフトさせる。次に、入力部120は、読出位置が、電子ファイルの最後であるEOF(End Of File)であるか否かを判別する(ステップS50)。このとき、入力部120は、読出位置がEOFでないと判別すると(ステップS50;No)、ステップS38から上記処理を繰り返す。
After the process of step S41 or step S49 is executed, the
ステップS50において、入力部120は、読出位置がEOFであると判別すると(ステップS50;Yes)、再放送処理の実行を終了する。
In step S50, when the
音声認識装置100のCPU101は、放送された番組の検索キー、若しくは番組で放送される動画に付される字幕として、番組での発言内容を要約したテキストを生成する、図9に示す要約生成処理を実行する。これにより、CPU101は、図4に示す前述の入力部120、保存部130、及び出力部140の他に、抽出部150及び音声認識部160として機能する。また、CPU101は、前述のように、ハードディスク104と協働して蓄積部190として機能する。
The
抽出部150は、番組で発言された音声を表す単語の候補となる単語(以下、候補語という)を、蓄積部190に蓄積されたコメント等から抽出する。音声認識部160は、抽出された候補語に基づいてマルチメディア情報の再生により発せられる音声を認識する。
The
次に、要約生成処理に用いられる各種情報について説明する。
蓄積部190は、番組にコメントしたユーザが参照した文書のURLが保存された、図10に示す参照テーブルを記憶している。参照テーブルには、ユーザのユーザIDと、当該ユーザが参照した文書のURL(Uniform Resource Locator)と、当該URLにある文書を当該ユーザが参照した日時(以下、参照日時という)と、が対応付けられたデータが複数保存されている。
Next, various information used for the summary generation process will be described.
The
尚、ユーザが参照した文書は、例えば、ニュースや百科事典や辞書の内容を掲載したウェブページ若しくはブログなどを含む。また、音声認識装置100は、文書サーバとして機能し、端末装置20から40それぞれから、文書の送信リクエストと、送信を要求する文書のURLと、送信を要求するユーザのユーザIDと、を受信する。音声認識装置100は、送信が要求された文書を返信すると共に、ユーザIDと、リクエストの返信日時(つまり、ユーザの参照日時)と、文書のURLと、を対応付けて、図10に示す参照テーブルへ蓄積する。
The document referred to by the user includes, for example, a web page or a blog on which news, encyclopedias, and dictionary contents are posted. Further, the
また、蓄積部190は、番組に関連した文を要素とする文集合が保存される、図11に示す文集合テーブルを記憶している。ここでは、番組に関連した文は、入力された番組のコメントを構成する文(以下、入力文という)及び番組にコメントしたユーザが参照した文書に掲載された文(以下、参照文という)を含む。
Further, the
文集合テーブルには、番組に関連した文が入力文である場合に、当該文を識別する文IDと、当該文と、当該文の種類と、当該文の入力時点と、当該番組の放送開始日時のシフト時間(以下、当該文に対応したシフト時間という)と、が、が対応付けられたデータが複数保存される。 In the sentence set table, when a sentence related to a program is an input sentence, the sentence ID for identifying the sentence, the sentence, the type of the sentence, the input time of the sentence, and the broadcast start of the program A plurality of data in which the date / time shift time (hereinafter referred to as the shift time corresponding to the sentence) is associated with each other are stored.
また、文集合テーブルには、文集合に含まれる番組に関連した文が参照文である場合に、当該文を識別する文IDと、当該文と、当該文の種類と、当該文の検索に用いられたコメントの入力時点と、当該文に対応したシフト時間と、が、が対応付けられたデータが複数保存される。 In the sentence set table, when a sentence related to a program included in the sentence set is a reference sentence, the sentence ID for identifying the sentence, the sentence, the type of the sentence, and the search for the sentence are included. A plurality of data in which the input time of the used comment is associated with the shift time corresponding to the sentence is stored.
また、蓄積部190は、コメントや文書に含まれることがある単語と、コメントや文書において当該単語と共に使用されることがある共起語が保存された、図12に示す共起語テーブルを記憶している。共起語テーブルには、単語と、当該単語の共起語と、当該単語と当該共起語とがコメントや文書で共に使用される(つまり、共起する)ことがどの程度尤もであるかを表す尤度(以下、共起尤度という)と、が対応付けられたデータが複数保存されている。
Further, the
さらに、蓄積部190は、候補語が保存される、図13に示す候補語テーブルを記憶している。本実施例では、音声認識装置100は、番組で発言された音声を表す単語の候補として、入力文に含まれる単語(以下、入力語という)、入力文が入力された時期にユーザが参照した参照文に含まれる単語(以下、参照語という)、及びこれらの共起語(以下それぞれ、入力共起語及び参照共起語という)を用いる。
Further, the
このため、候補語テーブルには、候補語が入力語である場合に、当該入力語を識別する候補語IDと、当該入力語と、当該入力語を含む入力文の入力時点(以下、当該入力語に対応した入力時点という)と、当該入力語を含む文に対応したシフト時間(以下、当該入力語に対応したシフト時間という)と、当該入力語の出現尤度と、が対応付けて保存される。出現尤度とは、候補語の抽出に用いられたコメントが入力された条件の下で、当該候補語が番組中の発言に出現することの尤もらしさを表す値をいう。 Therefore, in the candidate word table, when the candidate word is an input word, the candidate word ID for identifying the input word, the input word, and the input time point of the input sentence including the input word (hereinafter, the input word) An input time corresponding to a word), a shift time corresponding to a sentence including the input word (hereinafter referred to as a shift time corresponding to the input word), and an appearance likelihood of the input word are stored in association with each other. Is done. The appearance likelihood is a value representing the likelihood that the candidate word appears in the utterance in the program under the condition that the comment used for extracting the candidate word is input.
また、候補語テーブルには、候補語が参照語の場合に、当該参照語の候補語IDと、当該参照語と、当該参照語を含む文書の検索に用いられたコメントの入力時点(以下、当該参照語に対応した入力時点という)と、当該参照語を含む文に対応したシフト時間(以下、当該参照語に対応したシフト時間という)と、当該参照語の出現尤度と、が対応付けて保存される。 Further, in the candidate word table, when the candidate word is a reference word, the candidate word ID of the reference word, the reference word, and the input time point of the comment used for searching the document including the reference word (hereinafter, The input time corresponding to the reference word), the shift time corresponding to the sentence including the reference word (hereinafter referred to as the shift time corresponding to the reference word), and the appearance likelihood of the reference word Saved.
さらに、候補語テーブルには、候補語が入力共起語の場合に、当該入力共起語の候補語IDと、当該入力共起語と、当該入力共起語と共に用いられると推測される入力語の入力時点(以下、当該入力共起語に対応した入力時点という)と、当該入力語を含む文に対応したシフト時間(以下、当該入力共起語に対応したシフト時間という)と、当該入力共起語の出現尤度と、が対応付けて保存される。 Further, in the candidate word table, when the candidate word is an input co-occurrence word, the input that is assumed to be used together with the candidate co-occurrence word ID, the input co-occurrence word, and the input co-occurrence word The input time of the word (hereinafter referred to as the input time corresponding to the input co-occurrence word), the shift time corresponding to the sentence including the input word (hereinafter referred to as the shift time corresponding to the input co-occurrence word), the The appearance likelihood of the input co-occurrence word is stored in association with each other.
またさらに、候補語テーブルには、候補語が参照共起語の場合に、当該参照共起語の候補語IDと、当該参照共起語と、当該参照共起語と共に用いられると推測される参照語に対応した入力時点(以下、当該参照共起語に対応した入力時点)と、当該参照語を含む文に対応したシフト時間(以下、当該参照共起語に対応したシフト時間という)と、当該参照共起語の出現尤度と、が対応付けて保存される。 Furthermore, in the candidate word table, when the candidate word is a reference co-occurrence word, it is estimated that the candidate word ID, the reference co-occurrence word, and the reference co-occurrence word are used together with the reference co-occurrence word. An input time corresponding to the reference word (hereinafter referred to as an input time corresponding to the reference co-occurrence word) and a shift time corresponding to a sentence including the reference word (hereinafter referred to as a shift time corresponding to the reference co-occurrence word); The appearance likelihood of the reference co-occurrence word is stored in association with each other.
また、蓄積部190は、番組の音声を認識するために用いられる、音響モデル、単語辞書、及び言語モデルを記憶している。音響モデルは、音素や音節の周波数パターンを表し、番組の音声を音素若しくは音節(以下、音素等という)の配列(以下、音素等列という)に分解するために用いられる。単語辞書は、単語と当該単語の発音を表す音素等列とを複数対応付けた辞書である。言語モデルは、複数の単語の連鎖を規定するモデルであり、2つの単語の連鎖を規定するバイグラムモデルであっても、3つの単語の連鎖を規定するトライグラムモデルであっても、N個の単語の連鎖を規定するNグラムモデルであっても良い。
In addition, the
また、蓄積部190は、ある発音時点で発音された音声が、ある入力時点で入力されたコメントの対象とされた音声と、どの程度の確率で合致するかを表す合致度を表す合致度データを記憶している。合致度データは、入力時点から発音時点を減算した差異(以下、時点差異という)の変化に伴って、合致度がどのように推移するかを表す合致度曲線を表す。
In addition, the accumulating
蓄積部190が記憶する合致度曲線は、生放送合致度曲線と、再放送合致度曲線と、を含む。生放送合致度曲線は、生放送された番組の音声と、当該番組の放送中に入力されたコメントの対象となった音声と、の合致度を表す。再放送合致度曲線は、再放送された番組の音声と、当該番組の再放送中に入力されたコメントの対象となった音声と、の合致度を表す。
The matching degree curve stored by the
再放送合致度曲線上の点は、時点差異が所定の値「-TD1」以上「+TD2」以下の範囲で、生放送合致度曲線上の点よりも合致度が大きくなっている。既に生放送で番組を視聴している視聴者や、再放送で同じ番組を繰り返し視聴している視聴者は、予め番組で放送される音声を把握している。このため、これらの視聴者は、生放送で初めて番組を視聴する視聴者よりも、コメント対象とする音声の発音時点に近い時点でコメントを入力する傾向にあるからである。 The points on the rebroadcast match score curve have a greater match score than the points on the live broadcast match score curve within a time difference between the predetermined value “−TD1” and “+ TD2”. A viewer who has already watched a program by live broadcasting or a viewer who has repeatedly viewed the same program by rebroadcast knows in advance the sound broadcast by the program. For this reason, these viewers tend to input comments at a time closer to the time of pronunciation of the speech to be commented than viewers viewing the program for the first time in a live broadcast.
また、生放送合致度曲線は、時点差異が「TP」のときがピークであり、時点差異が「TP」から離れるに従って減衰する。これは、生放送の場合には、出演者の音声を聞いた後で当該音声にコメントを入力することが多いためである。但し、出演者が入力されたコメントに対して発言する場合もあるため、必ずしも時点差異は正となる(すなわち、コメントの入力時点の方が発音時点よりも遅くなる)訳ではない。 In addition, the live broadcast match degree curve has a peak when the time difference is “TP”, and attenuates as the time difference moves away from “TP”. This is because in the case of live broadcasting, a comment is often input to the sound after listening to the sound of the performer. However, since the performer may speak in response to the input comment, the time difference is not necessarily positive (that is, the comment input time is later than the pronunciation time).
さらに、再放送合致度曲線は、時点差異が「0」のときがピークであり、時点差異「0」から離れるに従って減衰する。前述のように、既に生放送で番組を視聴している視聴者などは、コメント対象とする音声の発音時点と同じ時点でコメントを入力することが多いためである。 Further, the rebroadcast match degree curve has a peak when the time difference is “0”, and attenuates as the distance from the time difference “0” increases. This is because, as described above, viewers who have already watched a program on a live broadcast often input a comment at the same time as the sound of the voice to be commented.
次に、図4に示した入力部120、保存部130、出力部140、抽出部150、及び音声認識部160で行われるCPU101の動作について説明する。
Next, operations of the
放送が終了すると、音声認識装置100のユーザは、番組で放送された音声の内容を要約したテキストを生成するように指示する操作(以下、要約生成指示操作という)と、要約を生成させる番組のマルチメディア情報のパスを指定する操作(以下、パス指定操作という)と、を、図2に示したキーボード109に行う。
When the broadcast ends, the user of the
音声認識装置100のCPU101は、キーボード109から要約生成指示操作に応じた信号を入力すると、図9に示す要約生成処理の実行を開始する。
When the
先ず、入力部120は、キーボード109から出力される信号を入力し、入力した信号に基づいて、パス指定操作で指定されたパス(以下、指定パスという)を特定する(ステップS61)。
First, the
次に、抽出部150は、パスにあるマルチメディア情報で表される番組に関連した文を要素とする文集合を生成する、図15に示す文集合生成処理を実行する(ステップS62)。
Next, the
文集合生成処理を開始すると、抽出部150は、指定パスに対応付けられた放送IDを、図5に示した放送テーブルから全て検索する(ステップS71)。
When the sentence set generation process is started, the
次に、抽出部150は、検索された放送ID(以下、検索放送IDという)それぞれについて、検索放送IDに対応付けられたコメントと、入力時点と、ユーザIDと、を、図6に示したコメントテーブルから全て検索する(ステップS72)。これにより、抽出部150は、指定パスにあるメディア情報で表される番組が生放送若しくは再放送されたときに入力されたコメントと、当該コメントを発したユーザと、放送の開始日時からの経過時間で表されるコメントの入力時点と、を特定する。
Next, for each searched broadcast ID (hereinafter referred to as a search broadcast ID), the
その後、抽出部150は、検索されたコメント(以下、検索コメントという)の全てについて、コメントを構成する文(つまり、入力文)を取得し、取得した入力文を、指定されたマルチメディア情報で表される番組に関連した文とする。次に、抽出部150は、入力文を要素とする文集合を生成する(ステップS73)。
Thereafter, the
その後、抽出部150は、検索された放送IDそれぞれについて、放送IDに対応付けられたシフト時間を、図5に示した放送テーブルから検索する。次に、抽出部150は、入力文の文IDを生成する。その後、検索されたシフト時間を、同じ放送IDで検索されたコメントの入力文に対応したシフト時間とする。
Thereafter, the
その後、抽出部150は、生成した文IDと、当該文と、当該文の種類と、当該文で構成されるコメントの入力時点と、当該文に対応したシフト時間と、を対応付けて、図11に示した文集合テーブルに保存する(ステップS74)。
Thereafter, the
コメントから抽出された入力文にシフト時間を対応付けておくのは、シフト時間によって、音声の出力タイミングに対するコメントの入力タイミングが異なると推測されるからである。このため、後の処理のために入力文とシフト時間とを対応付けておく必要があるからである。 The reason why the shift time is associated with the input sentence extracted from the comment is that it is presumed that the input timing of the comment differs from the output timing of the voice depending on the shift time. For this reason, it is necessary to associate the input sentence with the shift time for later processing.
その後、抽出部150は、ステップS71で検索された放送IDそれぞれについて、放送IDに対応付けられた放送開始日時を、図5に示した放送テーブルから検索する(ステップS75)。
Thereafter, the
その後、抽出部150は、ステップS72で検索されたコメントそれぞれについて、検索された放送開始日時を入力時点に加算することで、コメントが入力された日時(以下、コメント入力日時という)を特定する(ステップS76)。
Thereafter, the
次に、抽出部150は、コメント入力日時より所定の時間Aだけ前の日時から、コメント入力日時より所定の時間Bだけ後の日時までの時間区間(以下、コメント入力時期という)を算出する。次に、抽出部150は、ステップS72で検索されたコメントそれぞれについて、コメント入力時期に含まれる参照日時と、ステップS72で検索されたユーザIDと、に対応付けられたURLを、図10に示した参照テーブルから検索する(ステップS77)。これにより、抽出部150は、コメント入力時期にユーザが参照した文書を特定し、特定した文書を、当該コメントを入力するためにユーザが参照したページとする。尚、好適な所定の時間A及び所定の時間Bは、当業者が実験により定めることはできる。
Next, the
次に、抽出部150は、ステップS76で検索された全URLについて、URLにある文書を取得する(ステップS78)。
Next, the
その後、抽出部150は、取得された全文書について、参照された文書に掲載された文(以下、参照文という)を取得し、取得した参照文を、指定されたマルチメディア情報で表される番組に関連した文とする。次に、抽出部150は、参照文を文集合に追加する(ステップS79)。
Thereafter, the
例えば、視聴者が、番組を視聴しているときに参照した文書は、番組で放送された内容の内で、視聴者が疑問に思った内容や確認したいと思った内容など、番組に関連した内容を掲載していることが多いためである。 For example, the document that the viewer referred to while watching the program related to the program, such as the content that the viewer was wondering about or the content that the viewer wanted to check in the content broadcast on the program. This is because the contents are often posted.
その後、抽出部150は、参照文を、図11に示した文集合テーブルに保存した後に(ステップS78)、文集合生成処理の実行を終了する。具体的には、抽出部150は、参照文の文IDを生成し、生成した文IDと、当該文と、当該文の種類と、当該文を含む文書の検索に用いられたコメントの入力時点と、当該文に対応するシフト時間と、を、対応付けて文集合テーブルに保存する。
After that, the
尚、参照された文書から抽出された参照文にシフト時間を対応付けておくのは、シフト時間によって、音声の出力タイミングに対する文書の参照タイミングが異なると推測されるからである。このため、後の処理のために参照文とシフト時間とを対応付けておく必要があるからである。 The reason why the shift time is associated with the reference sentence extracted from the referenced document is that it is estimated that the reference timing of the document with respect to the output timing of the sound differs depending on the shift time. For this reason, it is necessary to associate the reference sentence with the shift time for later processing.
図9のステップS62の後に、抽出部150は、文集合に含まれる文から、番組で放送された音声を表す単語の候補(つまり、候補語)を抽出する、図16に示す候補語抽出処理を実行する(ステップS63)。
After step S62 in FIG. 9, the
候補語抽出処理の実行を開始すると、抽出部150は、文集合に含まれる文を全て取得する(ステップS81)。次に、抽出部150は、取得した文それぞれに形態素解析を施す(ステップS82)。これにより、抽出部150は、入力文を構成する単語(つまり、入力語)の全てと、参照文を構成する単語(つまり、参照語)の全てと、を、それぞれの文から抽出する(ステップS83)。
When the execution of the candidate word extraction process is started, the
その後、抽出部150は、抽出した入力語のそれぞれについて、入力語に対応付けられた共起語(つまり、入力共起語)を、図12に示した共起語テーブルから検索する。次に、抽出部150は、入力語に基づいて検索された入力共起語を、当該入力語が番組のコメントの一部として入力された場合に、番組の出演者の発言内容に用いられている(つまり、発言内容として共起している)と推測される単語とする。
Thereafter, the
また、抽出部150は、抽出した参照語のそれぞれについて、参照語に対応付けられた共起語(つまり、参照共起語)を、共起語テーブルから検索する(ステップS84)。次に、抽出部150は、参照語に基づいて検索された参照共起語を、番組にコメントするために当該参照語を視聴者が参照した場合に、番組の出演者の発言に用いられていると推測される単語とする。
In addition, the
次に、抽出部150は、ステップS83で抽出された入力語及び参照語、並びにステップS84で検索された入力共起語及び参照共起語を候補語とする(ステップS85)。
Next, the
その後、抽出部150は、候補語を、図13に示した候補語テーブルに保存した後に(ステップS86)、候補語抽出処理の実行を終了する。
Thereafter, the
具体的には、抽出部150は、候補語のそれぞれについて、候補語を識別する候補語IDを生成する。次に、抽出部150は、入力語と、当該入力語の共起語、当該入力語を含むコメントに基づいて検索された文書に掲載された参照語、及び当該参照語の共起語に対応した入力時点を、当該入力語が抽出された入力文の入力時点とする。
Specifically, the
次に、抽出部150は、入力語である候補語の候補語IDと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、当該候補語を含む入力文に対応付けられたシフト時間と、を、対応付けて、候補語テーブルに保存する。また、抽出部150は、入力共起語である候補語の候補語IDと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、共起が推測される入力語に対応したシフト時間と、を、対応付けて、候補語テーブルに保存する。さらに、抽出部150は、参照語である候補語の候補語IDと、当該候補語と、当該候補語の種類と、当該候補語に対応した入力時点と、当該候補語を含む参照文に対応したシフト時間と、を、対応付けて、候補語テーブルに保存する。またさらに、抽出部150は、参照共起語である候補語の候補語IDと、当該候補語と、当該候補語の種類と、当該候補語に対応する入力時点と、共起が推測される参照語に対応付けられたシフト時間と、を、対応付けて、候補語テーブルに保存する。
Next, the
図9示したステップS63で候補語が抽出された後に、図4に示した音声認識部160は、候補語のそれぞれについて出現尤度を算出する(ステップS64)。
After the candidate words are extracted in step S63 shown in FIG. 9, the
ここで、ステップS64の処理の一例について説明する。
音声認識部160は、図13に示した候補語テーブルに保存された候補語の全てを検索する。次に、音声認識部160は、入力語である候補語のそれぞれについて、出現尤度として第1所定値を割り当てる。この第1所定値は、番組のコメントの一部として当該入力語が入力された条件の下で、例えば、当該入力語が番組中で発言されるなど、当該入力語が番組の音声に出現することの尤もらしさがどの程度であるかを表す値である。
Here, an example of the process of step S64 will be described.
The
また、音声認識部160は、参照語である候補語のそれぞれについて、出現尤度として第2所定値を割り当てる。この第2所定値は、番組のコメントの一部として当該参照語の検索に用いられたコメントが入力された条件の下で、当該参照語が番組の音声に出現することの尤もらしさがどの程度であるかを表す値である。第1所定値及び第2所定値は、当業者が実験により好適な値に定めることができる。
In addition, the
また、抽出部150は、候補語の内で、入力語の共起語のそれぞれについて、図12に示した共起語テーブルから、当該入力語と当該共起語とに対応付けられた共起尤度を検索する。次に、抽出部150は、検索した共起尤度を用いて前述の第1所定値を調整した値(以下、第1調整値)を、当該共起語の出現尤度として割り当てる。この第1調整値は、当該入力語を含むコメントが入力された条件の下で、当該共起語が番組の発言中に出現することの尤もらしさがどの程度であるかを表す値であり、共起尤度が高い程高い値に調整される。
In addition, the
さらに、抽出部150は、候補語の内で、参照語の共起語のそれぞれについて、図12に示した共起語テーブルから、当該参照語と当該共起語とに対応付けられた共起尤度を検索する。次に、抽出部150は、検索した共起尤度を用いて前述の第2所定値を調整した値(以下、第2調整値)を、当該共起語の出現尤度として割り当てる。この第2調整値は、当該参照語の検索に用いられたコメントが入力された条件の下で、当該共起語が番組の発言中に出現することの尤もらしさがどの程度であるかを表す値であり、共起尤度が高い程高い値に調整される。
Furthermore, the
図9に示すステップS64が実行された後に、入力部120は、ステップS61で特定された指定パスから、所定サイズのマルチメディア情報を読み出す(ステップS65)。
After step S64 shown in FIG. 9 is executed, the
次に、図4に示した音声認識部160は、ステップS65で読み出されたマルチメディア情報で表される番組の音声(以下、番組音声)Xを認識する、図17に示すような連続音声認識処理を実行する(ステップS66)。
Next, the
尚、音声認識部160が実行する連続音声認識処理は、非特許文献1に記載されているので、以下、概略を説明する。
Note that the continuous speech recognition processing executed by the
連続音声認識処理は、ステップS65で読み出された番組の音声(以下、番組音声という)Xが入力されたときに、番組音声Xの内容が単語列Wで表される確率p(W|X)を最大にする単語列W*を探索する処理である。 In the continuous speech recognition process, the probability p (W | X) that the content of the program audio X is represented by the word string W when the audio (hereinafter referred to as program audio) X of the program read in step S65 is input. ) To maximize the word string W * .
ここで、確率p(W|X)は、ベイズ則により、以下の式(1)のように書き換えることができる。 Here, the probability p (W | X) can be rewritten as the following formula (1) by Bayes rule.
ここで、分母の確率p(X)は、単語列Wの決定に影響しない正規化係数と考えられるので無視できる。 Here, the denominator probability p (X) can be ignored because it is considered as a normalization coefficient that does not affect the determination of the word string W.
このため、以下の式(2)で表される、確率p(W|X)を最大にする単語列W*は、以下の式(3)若しくは式(4)でも表される。 Therefore, the word string W * that maximizes the probability p (W | X) represented by the following formula (2) is also represented by the following formula (3) or formula (4).
本実施例では、音声認識部160は、式(3)を満たす単語列W*を探索するとして説明するが、これに限定される訳ではなく、式(4)を満たす単語列W*を探索しても良い。
In the present embodiment, the
音声認識処理の実行を開始すると、音声認識部160は、図9に示すステップS65で読み出されたマルチメディア情報で表される音声の音声信号から、例えば、周波数及び音圧に基づいて、番組の音声(以下、番組音声という)Xを抽出する信号処理を行う(ステップS91)。
When the execution of the voice recognition process is started, the
次に、音声認識部160は、抽出された番組音声Xの周波数の変化と、蓄積部190に記憶された音響モデルで表される音素や音節の周波数パターンと、を、マッチングさせることで、番組音声Xを音素等に分解し、番組音声Xを表す音素等列X={x1,x2,…,xk}を生成する(ステップS92)。
Next, the
その後、音声認識部160は、番組音声Xが発音された発音時点を特定し、放送の開始日時から音声が発せられるまでの経過時間を用いて表す(ステップS93)。
Thereafter, the
次に、音声認識部160は、図13に示した候補語テーブルに保存された候補語の全てについて、候補語に対応する入力時点と、抽出された番組音声の発音時点と、の差異(つまり、時点差異)を算出する(ステップS94)。
Next, the
その後、音声認識部160は、図13に示した候補語テーブルに保存された候補語の全てについて、候補語に対応するシフト時間を検索する。次に、音声認識部160は、シフト時間が所定値以下の候補語について、ステップS94で算出された時点差異と、蓄積部190に保存されたデータで表される生放送合致度曲線と、に基づいて合致度を算出する。また、音声認識部160は、シフト時間が所定値より大きい候補語について、算出された時点差異と、蓄積部190に保存されたデータで表される再放送合致度曲線と、に基づいて合致度を算出する(ステップS95)。
Thereafter, the
次に、音声認識部160は、生成した単語列Wの数の計数に用いられる変数jを値「0」で初期化する(ステップS96)。
Next, the
次に、音声認識部160は、合致度の高い候補語ほど、高確率で、単語列W={w1,w2,…,wk}を構成する候補語w1からwkとして選択する。また、音声認識部160は、出現尤度の高い候補語ほど、高確率で、上記単語列Wを構成する候補語w1からwkとして選択する。その後、音声認識部160は、選択した候補語w1からwkで構成される単語列Wを生成する(ステップS97)。尚、単語列Wを構成する候補語の数kは、ステップS97の実行時に確率的に決定される。
Next, the
その後、音声認識部160は、蓄積部190が記憶する単語辞書を用いて、単語列Wを構成する候補語それぞれについて音素等列を生成し、単語列Wの発音を表す音素等列M={m1,m2,…,mi}を生成する(ステップS98)。
Thereafter, the
次に、音声認識部160は、以下の式(5)を用いて、単語列Wから番組音声Xが生起する確率p(X|W)を算出する(ステップS99)。尚、確率p(X|W)は、単語列Xの発音を表す音素等列と、番組音声の音素等列と、がどの程度一致するかを表すため、一致度と称される。
Next, the
尚、音声認識部160は、音響モデルで表される音素等miの音響的特徴と、音声信号から分解された音素等xiの音響的特徴と、が、どの程度一致しているかを比較し、一致しているほどp(xi|mi)を値「1」に近い値とし、相違しているほどp(xi|mi)を「0」に近い値とする。
The
次に、音声認識部160は、番組音声Xが入力される時点で、単語列Wが生起する確率であり、番組音声Xとは無関係の言語的確からしさを表す結合度p(W)を、下記の式(6)を用いて算出する。このとき、音声認識部160は、下記の式(6)を式(7)で近似し、Nグラムモデルの言語モデルを用いて結合度p(W)の近似値を算出する(ステップS100)。計算量を軽減するためである。
Next, the
その後、音声認識部160は、ステップS99で算出されたp(X|W)と、ステップS100で算出された結合度p(W)と、を乗算して、p(W|X)を算出する(ステップS101)。
After that, the
その後、音声認識部160は、変数jを値「1」だけ増加させた後に(ステップS102)、変数jが所定値Thより大きいか否かを判別する(ステップS103)。このとき、音声認識部160は、変数jが所定値Th以下であると判別すると(ステップS103;No)、ステップS97に戻り、上記処理を繰り返す。尚、好適な所定値Thは、当業者が実験により定めることができる。
Thereafter, the
これに対して、音声認識部160は、変数jが所定値Thより大きいと判別すると(ステップS103;Yes)、算出されたTh通りの単語列Wの内で、p(W|X)を最大にする(すなわち、式(2)から(4)を満たす)単語列W*を特定した後に(ステップS104)、連続音声認識処理の実行を終了する。
On the other hand, when the
図9に示すステップS66の連続音声認識処理が実行された後に、音声認識処理部160は、認識された単語列W*を要約に追加する(ステップS67)。
After the continuous speech recognition process in step S66 shown in FIG. 9 is executed, the speech
その後、入力部120は、前述のパスにある電子ファイルの読出位置を、読み出したマルチメディア情報のサイズだけ後側にシフトさせる。次に、入力部120は、読出位置が、電子ファイルの最後であるEOFであるか否かを判別する(ステップS68)。このとき、入力部120は、読出位置がEOFでないと判別すると(ステップS68;No)、ステップS65から上記処理を繰り返す。
Thereafter, the
ステップS68において、入力部120が、読出位置がEOFであると判別すると(ステップS68;Yes)、出力部140は、図2に示したビデオカード107へ要約を出力する(ステップS69)。その後、ビデオカード107は、LCD108に要約を表示させる。
In step S68, if the
次に、出力部140は、指定パスと、当該指定パスにあるマルチメディア情報で表される音声の要約を表すテキストと、を、対応付けて蓄積部190に保存した後に(ステップS70)、要約生成処理の実行を終了する。キーワードに基づいてマルチメディア情報を検索できるようにするためである。
Next, the
ここで、マルチメディア情報の再生により出力された音声に対するコメントは、当該音声の内容を表す単語若しくは当該単語の共起語を含むことが多い。このため、これらの構成によれば、音声認識装置100は、コメントを構成する単語(つまり、入力語)及び当該単語の共起語(つまり、入力共起語)を、音声の内容を表す単語の候補(つまり、候補語)とするので、従来よりも音声を適切に認識できる。つまり、音声認識装置100は、マルチメディア情報に付されたコメントを利用して、マルチメディア情報に含まれる音声を従来よりも適切に認識できる。
Here, the comment on the sound output by the reproduction of the multimedia information often includes a word representing the content of the sound or a co-occurrence word of the word. For this reason, according to these configurations, the
また、番組の音声についてコメントを入力するユーザは、発言の意味内容を文書で調べたり、確認したりすることが多い。このため、マルチメディア情報を聴取し、コメントを入力したユーザが閲覧した文書には、マルチメディア情報の再生により出力される音声の内容を表す単語若しくは当該単語の共起語を含むことが多い。よって、これらの構成によれば、音声認識装置100は、ユーザが参照した文書を構成する単語(つまり、参照語)及び当該単語の共起語(つまり、参照共起語)を、音声の内容を表す単語の候補(つまり、候補語)とするので、音声を従来よりも適切に認識できる。
Further, a user who inputs a comment about the audio of a program often checks or confirms the meaning content of the statement in a document. For this reason, a document viewed by a user who has listened to multimedia information and input a comment often includes a word representing the content of audio output by reproducing the multimedia information or a co-occurrence word of the word. Therefore, according to these configurations, the
さらに、これらの構成によれば、音声から認識された音素と、候補語の発音を表す音素と、の一致度だけでなく、候補語の出現尤度にも基づいて音声認識するため、一致度だけに基づいて音声を認識する従来の音声認識装置よりも、精度良く音声を認識できる。 Furthermore, according to these configurations, since the speech recognition is performed based not only on the degree of coincidence between the phoneme recognized from the speech and the phoneme representing the pronunciation of the candidate word, but also on the appearance likelihood of the candidate word, The speech can be recognized with higher accuracy than the conventional speech recognition device that recognizes the speech based only on the above.
また、ここで、音声の発音時点と、当該音声に対するコメントの入力時点と、は、通常、所定時間以上相違することが少ないなど、互いに合致していることが多い。このため、音声認識装置100は、候補語に対応した入力時点と、音声が発せられた発音時点と、の合致度と、当該候補語を含むコメントと、に基づいて、音声を認識するため、従来よりも精度良く音声を認識できる。
Here, the sound generation time and the comment input time with respect to the sound often coincide with each other, for example, because they are usually not different by a predetermined time or more. For this reason, the
ここで、前述のように、既に生放送で番組を視聴している視聴者や、再放送で同じ番組を繰り返し視聴している視聴者は、生放送で初めて番組を視聴する視聴者よりも、コメント対象とする音声の発音時点に近い時点でコメントを入力する傾向にある。音声認識装置100が記憶する再放送合致度曲線は、図14に示すように、時点差異が「-TD1」から「TD2」までの範囲で、生放送合致度曲線よりも上側に位置する。このため、同じ候補語で、時点差異が「-TD1」から「TD2」までの範囲に含まれる同じ値ならば、再放送で入力若しくは参照された単語又は当該単語の共起語の方が、生放送で入力等された単語又は当該単語の共起語よりも、図17に示した連続音声認識処理で生成される単語列Wに採用される確率が高い。
Here, as mentioned above, viewers who have already watched a program on live broadcasts and viewers who have repeatedly watched the same program on rebroadcasts will be subject to comment rather than viewers who have watched the program for the first time on live broadcasts. There is a tendency to input comments at a time close to the time of sound generation. As shown in FIG. 14, the rebroadcast match level curve stored in the
また、前述のように、既に生放送で番組を視聴している視聴者などは、再放送時において、コメント対象とする音声の発音時点に近い時点でコメントを入力することが多い。また、音声認識装置100が記憶する再放送合致度曲線は、図14に示すように、時点差異が「0」のときがピークであり、時点差異「0」から離れるに従って減衰する。このため、同じ候補語で、共に再放送で入力等された単語若しくは当該単語の共起語であれば、発音時点と入力等された時点との差異が少ない方が、連続音声認識処理で生成される単語列Wに採用される確率が高い。
In addition, as described above, viewers who have already watched a program on a live broadcast often input a comment at the time of re-broadcasting, near the point of time when the voice to be commented is pronounced. Further, as shown in FIG. 14, the rebroadcast match curve stored in the
これに対して、生放送の視聴者は、出演者の音声を聞いた後で当該音声に対してコメントを入力することが多い。音声認識装置100が記憶する生放送合致度曲線は、図14に示すように、時点差異が「TP」のときがピークであり、時点差異が「TP」から離れるに従って減衰する。このため、同じ候補語で、共に生放送で入力等された単語若しくは当該単語の共起語であれば、発音時点と入力等された時点との差異が「TP」に近い方が、連続音声認識処理で生成される単語列Wに採用される確率が高い。それにより、音声認識装置100は、従来よりも精度良く音声認識できる。
On the other hand, viewers of live broadcasts often input comments on the audio after listening to the audio of the performer. As shown in FIG. 14, the live broadcast match degree curve stored in the
本実施例では、図1に示した通信網10は、インターネットであると説明したが、これに限定される訳ではなく、LAN(Local Area Network)又は公衆回線網であっても良い。
In the present embodiment, the
本実施例では、マルチメディア情報は、番組の動画と音声とを表すとして説明したが、これに限定される訳ではなく、番組の音声のみを表しても良い。 In the present embodiment, the multimedia information is described as representing the video and sound of the program, but is not limited to this, and may represent only the sound of the program.
<実施例2>
本発明の実施例2に係る音声認識装置200は、実施例1に係る音声認識装置100と同様に、図1に示した音声認識システム1を構成する。以下、実施例1との相違点について主に説明するため、実施例1との共通点については説明を省略する。
<Example 2>
Similar to the
音声認識装置200のハードウェア構成は、実施例1に係る音声認識装置200のハードウェア構成と同様であるので説明を省略する。
Since the hardware configuration of the
次に、音声認識装置200が有する機能について説明する。
実施例2に係る音声認識装置200のCPUは、図18に示す要約生成処理を実行することで、図19に示すような入力部220、保存部230、出力部240、抽出部250、音声認識部260、及び共起尤度算出部270として機能する。また、音声認識装置200のCPUは、ハードディスク104と協働して蓄積部290として機能する。入力部220、保存部230、出力部240、抽出部250、音声認識部260、及び蓄積部290は、実施例1で説明した入力部120、保存部130、出力部140、抽出部150、音声認識部160、及び蓄積部190と同様の機能を有する。
Next, functions of the
The CPU of the
共起尤度算出部270は、端末装置20から40を使用するユーザ毎に、ユーザが参照した文書に掲載された単語と、当該文書において当該単語と共に使用される共起語と、当該共起語の共起尤度と、を算出する。
The co-occurrence
蓄積部190は、図12に示す共起語テーブルではなく、図20に示す共起語テーブルを記憶している。この共起語テーブルには、ユーザIDと、当該ユーザIDで識別されるユーザが参照した文書に掲載された単語と、当該単語の共起語と、当該単語と当該共起語とがコメントや文書で共に使用される(つまり、共起する)ことがどの程度尤もであるかを表す尤度(以下、共起尤度という)と、が対応付けられたデータが複数保存される。
The accumulating
次に、図19に示す各機能部で行われるCPUの動作について説明する。 Next, the operation of the CPU performed by each function unit shown in FIG. 19 will be described.
音声認識装置200のCPUは、キーボードから要約生成指示操作に応じた信号を入力すると、図18に示す要約生成処理の実行を開始する。
When the CPU of the
要約生成処理の実行を開始すると、共起尤度算出部270は、共起尤度を算出する共起尤度算出処理を実行する(ステップS60)。
When the execution of the summary generation process is started, the co-occurrence
共起尤度算出処理では、共起尤度算出部270は、図10に示した参照テーブルに保存されたユーザID毎に、ユーザIDと対応付けられたURLを検索する。次に、共起尤度算出部270は、検索したURLの全てについて、URLにある文書を取得する。その後、共起尤度算出部270は、取得した文書の全てについて、文書に掲載された掲載単語と、当該掲載単語と当該文書で共に使用された共起単語と、当該共起単語が当該掲載単語と共に使用された共起回数と、を算出する。その後、共起尤度算出部270は、掲載単語と共起単語との全組み合わせについて、共起回数に基づき共起尤度を算出する。次に、共起尤度算出部270は、所定値以上の共起尤度について、ユーザIDと、掲載単語と、共起単語と、共起尤度と、を対応付けて、図20に示す共起テーブルに保存する。
In the co-occurrence likelihood calculation process, the co-occurrence
図18に示すステップS60の処理が実行された後に、ステップS61からステップS63の処理を実行する。 After the process of step S60 shown in FIG. 18 is executed, the processes of step S61 to step S63 are executed.
その後、音声認識部260は、候補語のそれぞれについて出現尤度を算出する(ステップS64)。このとき、音声認識部260は、候補語が入力共起語の場合に、入力共起語と共起する入力語を入力したユーザのユーザIDを特定し、特定したユーザIDと当該入力語と当該入力共起語とに、図20に示す共起テーブルで対応付けられた共起尤度を検索する。次に、音声認識部260は、検索した共起尤度を用いて出現尤度を算出する。また、音声認識部260は、候補語が参照共起語の場合に、参照共起語と共起する参照語を参照したユーザのユーザIDを特定し、特定したユーザIDと当該参照語と当該参照共起語とに、図20に示す共起テーブルで対応付けられた共起尤度を検索する。次に、音声認識部260は、検索した共起尤度を用いて出現尤度を算出する。
Thereafter, the
その後、音声認識部260は、ステップS65からステップS70の処理を実行した後に、要約生成処理の実行を終了する。
Thereafter, the
これらの構成によれば、音声認識200は、視聴者が参照した文書に掲載された掲載単語と、当該掲載単語と共に文書中で使用された単語を共起語とし、当該掲載単語と当該共起語とが当該文書で共起した回数に基づいて共起尤度を算出する。また、音声認識200は、算出した共起尤度を用いて、視聴者が入力若しくは参照した単語の共起語の出現尤度を算出し、算出した共起語の出現尤度と、共起語の発音と音声との一致度と、に基づいて音声を認識する。ここで、視聴者が互いに共起させてコメントに用いる単語や互いに共起して文書に掲載される単語は、話題となっている事項や、時代の流行や、視聴者の嗜好によって変化する。このため、話題となっている事項や、時代の流行や、視聴者の嗜好が変化しても、音声認識装置200は、精度良く音声を認識できる。
According to these configurations, the
<実施例3>
実施例1に係る音声認識装置100は、図3に示したステップS17で、コメントを合成した動画を生成し、ステップS19で、コメントの合成された動画を表すマルチメディア情報を、図2に示したLANカード106へ出力すると説明した。LANカード106は、当該マルチメディア情報を端末装置20及び30へ送信し、端末装置20及び30は、コメントの合成された動画を、図7に示した視聴画面の動画表示領域AMに表示すると説明した。
<Example 3>
The
実施例3に係る音声認識装置は、図3に示したステップS17で、コメントを合成した動画を生成せず、ステップS19で、マルチメディア情報とコメント情報とをLANカード106へ出力する。LANカード106は、当該マルチメディア情報と当該コメント情報とを端末装置へ送信する。
The speech recognition apparatus according to the third embodiment does not generate a moving image in which the comment is synthesized in step S <b> 17 illustrated in FIG. 3, and outputs the multimedia information and the comment information to the
実施例3に係る端末装置は、図21に示すような視聴画面を表示する。この視聴画面は、実施例1で説明した動画表示領域AMと、コメント表示領域ACと、動画表示領域AMの上に重ねられた(つまり、動画表示領域AMよりも上位のレイヤーに属する)コメント表示欄ULと、を有する。端末装置は、マルチメディア情報とコメント情報とを受信すると、マルチメディア情報で表される動画を動画表示領域AMに表示し、コメント情報で表されるコメントを動画表示領域AMに重ねられたコメント表示欄ULとコメント表示領域ACとに表示する。尚、コメント表示欄ULの枠を作図の便宜のために点線で表したが、コメント表示欄ULの枠は視聴画面に表示されない。 The terminal device according to the third embodiment displays a viewing screen as illustrated in FIG. This viewing screen is superimposed on the moving image display area AM, the comment display area AC, and the moving image display area AM described in the first embodiment (that is, the comment display belongs to a higher layer than the moving image display area AM). And a column UL. When the terminal device receives the multimedia information and the comment information, the terminal device displays the moving image represented by the multimedia information in the moving image display area AM, and displays the comment represented by the comment information superimposed on the moving image display area AM. Displayed in the column UL and the comment display area AC. The frame of the comment display field UL is indicated by a dotted line for the convenience of drawing, but the frame of the comment display field UL is not displayed on the viewing screen.
<実施例4>
実施例4に係る音声認識装置100は、番組を生放送及び再放送するだけでなく、VOD(Video On Demand)で番組を配信する。端末装置20から40は、生放送若しくは再放送された番組だけでなく、配信された番組の映像を表示し、音声を出力する。
<Example 4>
The
ここで、端末装置40のユーザが、生放送された番組をVODで配信することを要求するリクエスト(以下、VOD配信リクエストという)を送信させる操作を端末装置40に行うとして説明する。
Here, a description will be given on the assumption that the user of the
端末装置40は、当該操作に応じてVOD配信リクエストを音声認識装置100へ送信する。音声認識装置100は、VOD配信リクエストを端末装置40から受信すると、配信を要求された番組を表すマルチメディア情報を読み出し、読み出したマルチメディア情報を端末装置40へ配信し始める。端末装置40は、音声認識装置100から受信したマルチメディア情報で表される番組映像の表示及び番組音声の出力を開始する。
The
その後、端末装置40のユーザが、配信された番組の再生位置を所定時間先に進めるスキップ操作を端末装置40に行うとして説明する。
Then, it demonstrates that the user of the
端末装置40は、番組映像の表示及び番組音声の出力を中止し、スキップとスキップする時間とを指示するスキップコマンドを音声認識装置100へ送信する。声認識装置100は、スキップコマンドを受信すると、当該スキップコマンドで指定された時間に相当するサイズだけマルチメディア情報の読出位置を後側にシフトしてからマルチメディア情報の読み出し及び配信を継続する。その後、端末装置40は、配信されたマルチメディア情報で表される番組映像の表示及び番組音声の出力を再開する。
The
その後、端末装置40のユーザが、配信された番組の再生位置を所定時間後に戻すスキップ操作を端末装置40に行うと、端末装置40は、番組映像の表示及び番組音声の出力を中止し、既に保存したマルチメディア情報を用いて、当該スキップ操作で指定された時間に相当するサイズだけ前の再生位置から番組映像の再生及び番組音声の出力を再開する。
After that, when the user of the
また、端末装置40のユーザが、配信された番組の再生を一時停止させる操作を端末装置40に行うと、端末装置40は、番組映像の表示及び番組音声の出力を中止する。その後、端末装置40のユーザが、配信された番組をコマ送り再生させる操作を端末装置40に行うと、番組音声の出力を中止し、配信された若しくは既に保存されたマルチメディア情報を用いて、番組映像のコマ送り再生を開始する。
When the user of the
その後、端末装置40のユーザが、番組の再生を停止させる操作を端末装置40に行うと、端末装置40は、番組映像の表示及び音声出力を停止し、停止を指示する停止コマンドを音声認識装置100へ送信する。音声認識装置100は、端末装置40から停止コマンドを受信すると、当該停止コマンドに従って、マルチメディア情報の配信を停止する。
Thereafter, when the user of the
実施例1から4は、互いに組み合わせることができる。実施例1から4のいずれかに係る機能を実現するための構成を備えた音声認識装置100として提供できることはもとより、複数の装置で構成されるシステムであって、実施例1から4のいずれかに係る機能を実現するための構成をシステム全体として備えたシステムとして提供することもできる。
Examples 1 to 4 can be combined with each other. In addition to being able to be provided as a
尚、実施例1に係る機能を実現するための構成を予め備えた音声認識装置100、実施例2に係る機能を実現するための構成を予め備えた音声認識装置200、又は実施例3若しくは4に係る機能を実現するための構成を予め備えた音声認識装置として提供できることはもとより、プログラムの適用により、既存の音声認識装置を実施例1に係る音声認識装置100、実施例2に係る音声認識装置200、又は実施例3若しくは4に係る音声認識装置として機能させることもできる。すなわち、実施例1で例示した音声認識装置100、実施例2で例示した音声認識装置200、又は実施例3若しくは4で例示した音声認識装置による各機能構成を実現させるための音声認識プログラムを、既存の音声認識装置を制御するコンピュータ(CPUなど)が実行できるように適用することで、実施例1に係る音声認識装置100、実施例2に係る音声認識装置200、又は実施例3若しくは4に係る音声認識装置として機能させることができる。
Note that the
このようなプログラムの配布方法は任意であり、例えば、メモリカード、CD−ROM、又はDVD−ROMなどの記録媒体に格納して配布できる他、インターネットなどの通信媒体を介して配布することもできる。また、本発明に係る音声認識方法は、実施例1に係る音声認識装置100、実施例2に係る音声認識装置200、又は実施例3若しくは4に係る音声認識装置を用いて実施できる。
Such a program distribution method is arbitrary. For example, the program can be distributed by being stored in a recording medium such as a memory card, a CD-ROM, or a DVD-ROM, or via a communication medium such as the Internet. . The speech recognition method according to the present invention can be implemented using the
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。 Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the specific embodiments, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed.
10:通信網
20,30,40:端末装置
21:撮影装置
22:音声収集装置
100,200:音声認識装置
101:CPU
102:ROM
103:RAM
104:ハードディスク
105:メディアコントローラ
106:LANカード
107:ビデオカード
108:LCD
109:キーボード
110:スピーカ
111:タッチパッド
120,220:入力部
130,230:保存部
140,240:出力部
150,250:抽出部
160,260:音声認識部
190,290:蓄積部
270:共起尤度算出部
10:
102: ROM
103: RAM
104: Hard disk 105: Media controller 106: LAN card 107: Video card 108: LCD
109: keyboard 110: speaker 111:
Claims (8)
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、を備える、
ことを特徴とする音声認識装置。 An accumulator for accumulating comments input by the user while listening to audio generated by playing multimedia information;
An extraction unit that extracts words that appear in a sentence set including the accumulated comments and candidate words including co-occurrence words of the word in the sentence set;
A voice recognition unit that recognizes a voice generated by reproducing the multimedia information based on the extracted candidate word;
A speech recognition apparatus characterized by that.
前記文集合は、前記マルチメディア情報を聴取したユーザが閲覧した文書に出現する文を含む
ことを特徴とする音声認識装置。 The speech recognition device according to claim 1,
The speech recognition apparatus, wherein the sentence set includes a sentence that appears in a document viewed by a user who has listened to the multimedia information.
前記抽出部は、前記候補語のそれぞれの出現尤度を算定し、
前記音声認識部は、前記音声から認識された音素と前記候補語を表す音素との一致度及び当該候補語の出現尤度に基づいて、音声認識する、
ことを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1 or 2,
The extraction unit calculates the likelihood of appearance of each of the candidate words,
The speech recognition unit recognizes speech based on the degree of coincidence between the phoneme recognized from the speech and the phoneme representing the candidate word and the appearance likelihood of the candidate word.
A speech recognition apparatus characterized by that.
前記候補語のうち、前記コメントに出現する単語には、当該コメントが入力された入力時点が対応付けられ、
前記音声認識部は、前記入力時点が対応付けられている候補語に対しては、当該候補語に対応付けられた入力時点と、前記音素が発せられた発音時点との合致度を求め、当該求められた合致度にさらに基づいて、音声認識する、
ことを特徴とする音声認識装置。 The speech recognition device according to claim 3,
Of the candidate words, words appearing in the comment are associated with an input time point when the comment is input,
For the candidate word associated with the input time point, the speech recognition unit obtains a degree of match between the input time point associated with the candidate word and the pronunciation time point when the phoneme is emitted, Voice recognition based on the degree of match
A speech recognition apparatus characterized by that.
前記入力時点と、前記発音時点と、は、前記マルチメディア情報の再生が開始されてからの再生時間により表現される、
ことを特徴とする音声認識装置。 The speech recognition device according to claim 4,
The input time point and the sound generation time point are expressed by a reproduction time after the reproduction of the multimedia information is started.
A speech recognition apparatus characterized by that.
前記合致度は、前記入力時点と前記発音時点との差及び前記マルチメディア情報の再生が可能となった時点と当該ユーザがマルチメディア情報の再生を開始した時点との差に基づいて定められる、
ことを特徴とする音声認識装置。 The speech recognition device according to claim 5,
The degree of match is determined based on a difference between the input time point and the sound generation time point, and a difference between a time point when the multimedia information can be played back and a time point when the user starts playing the multimedia information.
A speech recognition apparatus characterized by that.
ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積部、
前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出部、
前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識部、として機能させる、
ことを特徴とする音声認識プログラム。 Computer
An accumulator for accumulating comments input by the user while listening to audio generated by playing multimedia information;
An extraction unit that extracts words that appear in a sentence set including the accumulated comments and candidate words including co-occurrence words of the word in the sentence set;
Based on the extracted candidate words, function as a speech recognition unit that recognizes speech generated by playing the multimedia information,
A speech recognition program characterized by that.
前記蓄積部が、ユーザがマルチメディア情報の再生により発せられる音声を聴取しながら入力したコメントを蓄積する蓄積ステップ、
前記抽出部が、前記蓄積されたコメントを含む文集合に出現する単語及び当該文集合における当該単語の共起語を含む候補語を抽出する抽出ステップ、
前記音声認識部が、前記抽出された候補語に基づいて、前記マルチメディア情報の再生により発せられる音声を音声認識する音声認識ステップ、を有する、
ことを特徴とする音声認識方法。 A method performed by a speech recognition apparatus including an accumulation unit, an extraction unit, and a speech recognition unit,
An accumulating step in which the accumulating unit accumulates a comment input by the user while listening to a sound uttered by reproduction of multimedia information;
An extraction step in which the extraction unit extracts a word that appears in a sentence set including the accumulated comments and a candidate word including a co-occurrence word of the word in the sentence set;
The speech recognition unit has a speech recognition step for recognizing speech generated by reproducing the multimedia information based on the extracted candidate words.
A speech recognition method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012067192A JP5912729B2 (en) | 2012-03-23 | 2012-03-23 | Speech recognition apparatus, speech recognition program, and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012067192A JP5912729B2 (en) | 2012-03-23 | 2012-03-23 | Speech recognition apparatus, speech recognition program, and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013200362A JP2013200362A (en) | 2013-10-03 |
JP5912729B2 true JP5912729B2 (en) | 2016-04-27 |
Family
ID=49520675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012067192A Active JP5912729B2 (en) | 2012-03-23 | 2012-03-23 | Speech recognition apparatus, speech recognition program, and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5912729B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106303730A (en) * | 2016-07-28 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | A kind of for providing the method and apparatus of combination barrage information |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107835439B (en) * | 2017-10-25 | 2020-08-14 | 中国移动通信集团公司 | Bullet screen pushing method, electronic equipment and computer readable storage medium |
CN107864409B (en) * | 2017-10-26 | 2020-12-22 | 中国移动通信集团公司 | Bullet screen display method and device and computer readable storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2953730B2 (en) * | 1990-02-14 | 1999-09-27 | 株式会社東芝 | Information equipment |
JPH1055196A (en) * | 1996-08-09 | 1998-02-24 | Ricoh Co Ltd | Device and method for recognizing voice and information storage medium |
JP4344418B2 (en) * | 1999-03-31 | 2009-10-14 | シャープ株式会社 | Voice summarization apparatus and recording medium recording voice summarization program |
-
2012
- 2012-03-23 JP JP2012067192A patent/JP5912729B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106303730A (en) * | 2016-07-28 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | A kind of for providing the method and apparatus of combination barrage information |
CN106303730B (en) * | 2016-07-28 | 2018-05-11 | 百度在线网络技术(北京)有限公司 | A kind of method and apparatus for being used to provide combination barrage information |
Also Published As
Publication number | Publication date |
---|---|
JP2013200362A (en) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562737B2 (en) | Generating topic-specific language models | |
CN108228132B (en) | Voice enabling device and method executed therein | |
JP6824332B2 (en) | Video service provision method and service server using this | |
US10318637B2 (en) | Adding background sound to speech-containing audio data | |
JP3923513B2 (en) | Speech recognition apparatus and speech recognition method | |
US20080046406A1 (en) | Audio and video thumbnails | |
JP2007041988A (en) | Information processing device, method and program | |
JP2014132464A (en) | Interactive type interface device and control method of the same | |
TW200922223A (en) | Voice chat system, information processing apparatus, speech recognition method, keyword detection method, and recording medium | |
CN109165302A (en) | Multimedia file recommendation method and device | |
JP2010154397A (en) | Data processor, data processing method, and program | |
CN107145509B (en) | Information searching method and equipment thereof | |
US9563704B1 (en) | Methods, systems, and media for presenting suggestions of related media content | |
US20230280966A1 (en) | Audio segment recommendation | |
US8781301B2 (en) | Information processing apparatus, scene search method, and program | |
JP5912729B2 (en) | Speech recognition apparatus, speech recognition program, and speech recognition method | |
US20140129221A1 (en) | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method | |
KR102135077B1 (en) | System for providing topics of conversation in real time using intelligence speakers | |
KR20060100646A (en) | Method and system for searching the position of an image thing | |
JP5474591B2 (en) | Image selection apparatus, image selection method, and image selection program | |
JP6433765B2 (en) | Spoken dialogue system and spoken dialogue method | |
Neto et al. | A media monitoring solution | |
WO2018115878A1 (en) | A method and system for digital linear media retrieval | |
EP4049270B1 (en) | Using video clips as dictionary usage examples | |
US11922931B2 (en) | Systems and methods for phonetic-based natural language understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5912729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |