JP2007257134A - 音声検索装置、音声検索方法および音声検索プログラム - Google Patents
音声検索装置、音声検索方法および音声検索プログラム Download PDFInfo
- Publication number
- JP2007257134A JP2007257134A JP2006078502A JP2006078502A JP2007257134A JP 2007257134 A JP2007257134 A JP 2007257134A JP 2006078502 A JP2006078502 A JP 2006078502A JP 2006078502 A JP2006078502 A JP 2006078502A JP 2007257134 A JP2007257134 A JP 2007257134A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- word
- voice
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現の検索を可能にする。
【解決手段】 特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識104を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段103と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段105と、入力された音声に対応する単語を音声認識用辞書に基づいて認識して出力する音声認識手段108と、認識された単語に基づいて検索する検索手段109とを備える。
【選択図】 図1
【解決手段】 特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識104を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段103と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段105と、入力された音声に対応する単語を音声認識用辞書に基づいて認識して出力する音声認識手段108と、認識された単語に基づいて検索する検索手段109とを備える。
【選択図】 図1
Description
本発明は、音声認識に関するものであり、デジタルTVの電子番組情報から検索キーワードを抽出し、適切な読みを付与することにより新出する言語表現の音声認識を可能にし、音声による電子番組情報の効率的な検索を可能とする音声検索装置に関する。
放送のデジタル化により、地上送信波、放送衛星、通信衛星、及びCATVによる放送、さらにはインターネット通信画像を受信する機能など、デジタルTVが受信する放送やソースは多岐に渡るようになり、大量の番組情報がデジタルTVで取得できるようになった。例えば、近年開始された多チャンネルデジタル衛星放送システムでは、100以上の多数のチャンネルが用意されており、多数の番組が提供されている。このような状況においては、デジタルTVによって所望の番組を受信したり、将来放送される番組を予約したりしようとするユーザは、従来のように新聞や雑誌など印刷媒体で供給される番組表を用いて番組を選択することがますます困難になりつつある。
そこで、番組の選択を支援するために、今までにない機能、例えば、現在放送されている番組及び将来放送される番組案内情報が、本来の番組データとともに所定時間間隔で伝送されてくるようになった。さらに、番組の選択操作を容易にする目的で、電子番組ガイド(EPG:Electric Program Guide)が提案され、実用化されている。デジタルでTVでは、これらの情報を基に、番組表、メニュー等の表示データを作成する。これによりユーザは、画面上に表示した番組表、メニューから、番組を選択することができるようになってきた。
しかしながら、電子番組ガイドを用いても、ユーザが希望する番組を見つけ出すためには多くのリモコン操作が必要になり、いくつもの煩雑なステップをたどらざるを得ないという問題点がある。
例えば、電子番組ガイドでは、番組に関する電子的なデータをユーザが入手して番組の選択に用いる。番組に関する電子的なデータとは、番組のタイトル、放送チャネル、放送開始・終了時刻、出演者、番組の分類、番組のあらすじなどであり、様々な項目が考えられる。具体的には、コンピュータ・TVゲーム番組の「インターネット&メール入門」を探す場合には、まず、ジャンル検索機能を使用するための検索画面を表示させ、その検索画面上で「趣味・娯楽」を選択し、数多い趣味・娯楽ジャンルの中から「コンピュータ・TVゲーム」を選択する。そして、検索結果から、「インターネット&メール入門」を探すことになる。
例えば、電子番組ガイドでは、番組に関する電子的なデータをユーザが入手して番組の選択に用いる。番組に関する電子的なデータとは、番組のタイトル、放送チャネル、放送開始・終了時刻、出演者、番組の分類、番組のあらすじなどであり、様々な項目が考えられる。具体的には、コンピュータ・TVゲーム番組の「インターネット&メール入門」を探す場合には、まず、ジャンル検索機能を使用するための検索画面を表示させ、その検索画面上で「趣味・娯楽」を選択し、数多い趣味・娯楽ジャンルの中から「コンピュータ・TVゲーム」を選択する。そして、検索結果から、「インターネット&メール入門」を探すことになる。
このように従来の装置では、ジャンルやキーワードを画面選択等で選択する必要があるため、ジャンル数やキーワード数が増加すると、キーの少ないリモコンでは選択に煩雑な操作が必要になるという課題があった。そこで、従来から、音声入力で番組検索する技術が検討されており、代表的な従来技術として、下記の特許文献1や特許文献4が開示されている。以下、用いる専門用語は、下記の非特許文献1から3までの文献において表される用語を用いるものとする。
音声認識で番組を検索するには、番組を検索するための、番組内のキーワードの抽出と、キーワードの読みの付与がなされていなくてはならないため、番組情報を正確に解析してキーワードを抽出し、さらに、読みを付与する技術が注目されている。
まず、特許文献1は、音声認識技術を用いて番組のジャンルやキーワードを発声するだけで所望の番組を検索できるようにしたものであり、テンプレートを用いて番組情報から抽出したキーワードとマッチングをとることにより、連接する単語の区切り精度と、読み付与の精度を向上させ、音声で番組検索する技術が開示されている。また、特許文献2では、新たに登場する、電子番組ガイドに含まれる単語を、漢字かな変換の辞書を用いて読み情報を取得し、音声認識の辞書に登録する技術が開示されている。
また、特許文献3では、検索精度向上のために、電子番組ガイドから検索用に抽出したキーワードと類義関係にある類義語を追加して、検索漏れの少ないキーワード群を生成する技術を開示している。また、特許文献4では、正確な読みの付与のために、「々」や「ゞ」といった、一般に「踊り字」と呼ぶ繰り返し符号を用いた単語の読みを決定するための技術を開示している。
また、特許文献3では、検索精度向上のために、電子番組ガイドから検索用に抽出したキーワードと類義関係にある類義語を追加して、検索漏れの少ないキーワード群を生成する技術を開示している。また、特許文献4では、正確な読みの付与のために、「々」や「ゞ」といった、一般に「踊り字」と呼ぶ繰り返し符号を用いた単語の読みを決定するための技術を開示している。
しかしながら、このように構成された音声認識機能を有する電子番組ガイドの操作装置においては、新たに以下の課題が発生している。それは、電子番組ガイドに固有の表現や、辞書に存在しない新出する言語表現に対応できない、という点である。
より具体的には、音声認識装置には、音声認識用の辞書が用意されており、その辞書には言葉の読みと表記の文字列とが対で予め登録されている。このため、辞書に登録されていなければ音声を認識することが出来ない。しかし、電子番組ガイドに固有の日々変化する言語表現に対応して、無数の単語を登録することは、デジタルTVのハードウェアリソースを圧迫することになり、リソース管理の観点からも望ましいとはいえない。また、検索精度の観点からも、同音異義語の単語が多くヒットするようになり、検索結果の品質劣化を招くことになる。
このため、無数の単語を辞書に登録していくのではなく、一定期間の電子番組ガイドの言語表現から抽出した単語の読みを新たに生成して、必要な語彙だけ辞書を更新していくというアプローチが従来から採られている。
しかし、テンプレートとのパターンマッチングにより単語の区切りを決定する特許文献1では、パターンに部分一致した文字列をキーワードとしていたため、表記「ヒ・ミ・ツ」(読み:ヒミツ)など自身が文字に分割される単語や、表記「○△寧々」(読み:〜ねね)、表記「○すゞ」(読み:〜すず)などの「々」や「ゞ」といった、「踊り字」を用いた単語、さらには表記「デリ×2キッチン」(読み:でりでりきっちん)など、電子番組ガイドに固有の特殊な構造を持つ単語は、キーワードとして抽出できず、音声認識の対象にはできなかった。同様に、特許文献2や特許文献3でも、上記のような単語は、漢字かな変換の辞書に存在しないか、類義語辞書に存在しない場合に、読み情報を生成できず、音声認識の対象にできないという課題があった。
さらに、特許文献1では、表記「ダーツ&ビリヤード入門」(読み:だーつあんどびりやーどにゅうもん)の表現に対して、(読み:びりやーどにゅうもん)という単語連接では検索できるが、(読み:だーつにゅうもん)という電子番組ガイド内に存在しない新しい単語連接で検索することはできなかった。同様に、特許文献2から4も、上記のような新しい単語連接は辞書に存在しないため、新出する言語表現を検索することができないという課題があった。
本発明は、上記の課題を解決するためになされたものであり、文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現の検索を可能にすることを目的とする。
本発明に係る音声検索装置、音声検索方法および音声検索プログラムは、検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された単語に基づいて検索する検索手段とを備えたものである。
本発明によれば、文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現を検索できるようになる。
実施の形態1.
以下、本発明の実施の形態1について説明する。図1は、本発明の構成図を示すものである。形態素解析手段101は、単語辞書102を参照して、入力された検索対象テキストを形態素解析し、単語に分割された形態素列として出力する。キーワード生成手段103は、特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識104を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成する。音声認識用辞書生成手段105は、生成されたキーワードで検索可能な音声認識用辞書を生成する。音声入力手段107は、検索するための単語をユーザに音声として入力させる。音声認識手段108は、入力された音声に対応する単語を音声認識用辞書106に基づいて認識して出力する。検索手段109は、認識された単語に基づいて、番組表ガイドの番組情報を検索する。
以下、本発明の実施の形態1について説明する。図1は、本発明の構成図を示すものである。形態素解析手段101は、単語辞書102を参照して、入力された検索対象テキストを形態素解析し、単語に分割された形態素列として出力する。キーワード生成手段103は、特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識104を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成する。音声認識用辞書生成手段105は、生成されたキーワードで検索可能な音声認識用辞書を生成する。音声入力手段107は、検索するための単語をユーザに音声として入力させる。音声認識手段108は、入力された音声に対応する単語を音声認識用辞書106に基づいて認識して出力する。検索手段109は、認識された単語に基づいて、番組表ガイドの番組情報を検索する。
以下、本発明の具体的な実施例として、デジタルTVにおける音声検索の実施例1について、図2に示した本発明の実施例1における構成図のブロック図を参照しつつ説明する。なお、本発明は実施例としてデジタルTVに限定されるものではなく、DVD・ハードディスクレコーダ、AV機器、各種家電製品、ゲーム機など、広範な分野の情報家電製品に適用可能であることはいうまでもない。
図2のブロック図では、図1に示した各構成要素が以下のような対応になっている。
形態素解析手段101は、システムコントローラ9で実行される。単語辞書102は、ROM10に格納される。キーワード生成手段103は、システムコントローラ9で実行される。キーワード生成知識104は、ROM10に格納される。音声認識用辞書生成手段105は、システムコントローラ9で実行される。音声認識用辞書106は、不揮発性メモリ12に格納される。音声入力手段107は、マイク13を使用する。音声認識手段108は、システムコントローラ9で実行される。検索手段109は、システムコントローラ9で実行される。
形態素解析手段101は、システムコントローラ9で実行される。単語辞書102は、ROM10に格納される。キーワード生成手段103は、システムコントローラ9で実行される。キーワード生成知識104は、ROM10に格納される。音声認識用辞書生成手段105は、システムコントローラ9で実行される。音声認識用辞書106は、不揮発性メモリ12に格納される。音声入力手段107は、マイク13を使用する。音声認識手段108は、システムコントローラ9で実行される。検索手段109は、システムコントローラ9で実行される。
まず、デジタルTVは、システムコントローラ9を備えており、そのプログラムや辞書等を記憶するROM10と、必要なデータを記憶するRAM11と、書き込みおよび読み出しが可能な不揮発性メモリ12とを備えている。
放送波は、アンテナ1を介してチューナ2に送られ、高周波処理および復調が行われる。チューナ2からの出力は、DEMUX(Demultiplexer、シリアル−パラレル変換器、分配化装置)回路3に送られ、パケットの復号が行われる。
DEMUX回路3において、パケットは、MPEG(Moving Picture Expert Group、マルチメディア符号化の規格)データと番組案内情報等の付属情報とに分別される。DEMUX回路3によって分別されたMPEGデータは、AVデコーダ4に送られ、番組案内情報等の付属情報は、システムコントローラ9に送られる。システムコントローラ9は、DEMUX回路3から送られてきた番組案内情報等の付属情報を、RAM11に格納する。システムコントローラ9には、リモコン14からのリモコン信号が入力される。
システムコントローラ9は、チューナ2およびDEMUX回路3に選局のための情報等を送る。また、システムコントローラ9は、各種操作画面をCRT6にオンスクリーン表示させるためのOSD制御信号を、OSDコントローラ8に送る。OSDコントローラ8は、番組ガイド、メニュー等の表示データを生成して、OSD信号としてマルチプレクサ(合成回路)5に送る。
AVデコーダ4は、DEMUX回路3から送られてきたMPEGデータを復調する。AVデコーダ4によって得られた映像信号は、マルチプレクサ5に送られる。マルチプレクサ5は、映像信号にOSDコントローラ8から送られてきた表示データをスーパーインポーズ処理して、映像信号化したうえでCRT6に送る。図3に、CRT6に表示される番組案内画面の一例を示す。図中の表では、横軸に各TV局、縦軸に各時間帯に放映される番組名が表示されている。例えば、TV局1の番組として、「ダーツ&ビリヤード入門」が放映予定であり、同様に、TV局2では「ヒ・ミ・ツにしてね」、TV局3では「デリ×2キッチン」が放映予定であることを示してある。また、AVデコーダ4によって得られた音声信号は、スピーカ7に送られ音声として出力される。
次に、音声入力による番組検索の動作について説明する。このデジタルTVは、ユーザによって音声入力された単語に基づいて、番組を検索する機能を備えている。この機能を達成するために、マイク13を備えている。このマイク13は、デジタルTV本体側、あるいはリモコン側のどちらに備えていてもかまわない。
また、ROM10には、単語辞書102が格納されている。単語辞書102の一例を、図4に示す。単語辞書102には、形態素解析で用いる言語情報として、識別番号で管理された単語の見出し、読み、品詞等を含むデータが記憶されている。システムコントローラ9は、番組案内情報に基づいて、単語辞書102を用いて不揮発性メモリ12内に音声認識用辞書106を作成する。そして、ユーザからの入力音声を音声認識用辞書106に基づいて音声認識を行い、認識した単語に基づいて番組を検索する。
次に、音声認識用辞書106の作成手順について説明する。図5は、システムコントローラ9によって作成される音声認識用辞書106の作成処理手順を示している。以下、図5を参照しながら説明する。
まず、ステップST1001において、システムコントローラ9は、RAM11に格納された番組案内情報を解析し、番組案内情報から各番組の番組名、出演者、内容等のテキスト情報を抽出する。
次に、ステップST1002において、抽出されたテキスト情報に対して、ROM10に格納された単語辞書102を用いて形態素解析101を行なう。形態素解析101とは、単語辞書102に登録された単語の見出し、読み、品詞等の言語情報を利用して入力文を解析し、入力されたテキスト情報を単語に分割する処理である。例えば「ダーツ&ビリヤード入門」というタイトルが入力文として入力された場合には、図6、201に示すように、入力文を単語分割して単語リストを生成する。このとき、「文頭」、及び「文末」は、タイトルの先頭と末端を示す特殊な単語である。分割された単語は、例えば教科書3にある形態素数最小法を用いて、連接する単語数の最小の単語連鎖が選択される。ここでは図7、202に示す単語連鎖が単語列候補として選択される。このようにして、形態素解析101により、単語列候補を作成する。
次に、ステップST1003において、単語列候補と文法を照合し、文法に合致する単語列候補に対して、それぞれの文法に対応付けられた処理を行なう。なお、ステップST1003で行なわれる文法の照合処理、および文法に対応付けられた処理の具体例については後述する。
次に、ステップST1004において、文法に対応した処理により得られた各キーワードについて、読みとペアで検索キーワードを生成し、不揮発性メモリ12にこれを記憶する。なお、検索キーワードの生成処理の具体例についても後述する。
次に、ステップST1004において、文法に対応した処理により得られた各キーワードについて、読みとペアで検索キーワードを生成し、不揮発性メモリ12にこれを記憶する。なお、検索キーワードの生成処理の具体例についても後述する。
最後に、ステップST1005において、不揮発性メモリ12に蓄積されている検索キーワードについて、音声認識用辞書106を作成し、処理を終了する。音声認識用辞書106は、例えば、音響特徴量に基づく音素モデルを用いて、入力音声の音響特徴量との類似度計算を行なう際に、効率的な類似度計算ができるように、検索キーワード全体の音素系列をネットワーク形式で表現したものが用いられる。なお、音声認識用辞書106はネットワーク形式に限定されるものではなく、単語単位の音素系列パタンとして作成しても良く、また、その他の一般的に用いられる音響的な類似度を計算する手法を用いてもよい。
上記の音声認識用辞書106の作成処理は、例えば、深夜の放送の空き時間帯を利用して実行され、その都度、音声認識用辞書106の内容が更新されるようにする。このようにすることで、音声検索装置のハードウェアリソース使用量が日々増大しないようにできる。
以上が、音声認識用辞書106の作成処理の説明であるが、次に、作成された音声認識用辞書106を使用して、ユーザが音声入力により番組を検索する処理を説明する。図8は、システムコントローラ9によって行なわれる音声入力による番組検索処理手順を示している。音声入力による番組検索モード時においては、ユーザはマイク13を用いて選択したい番組を特定するための単語を音声入力する。番組を特定するための単語としては、ジャンル名、番組名、出演者名等が挙げられる。
以下、図8を参照しつつ、音声入力による番組検索処理手順を説明する。
まず、ステップST2001において、マイク13から音声を取り込む。マイク13は、リモコン14に内蔵されているか、あるいは、外部からシステムコントローラ9に直接接続された形態でも良い。取り込まれた音声は、ステップST2002において、電気的信号に変換され、ステップST2003において、電気信号をデジタル情報に変換された後、システムコントローラ9へ送信される。
まず、ステップST2001において、マイク13から音声を取り込む。マイク13は、リモコン14に内蔵されているか、あるいは、外部からシステムコントローラ9に直接接続された形態でも良い。取り込まれた音声は、ステップST2002において、電気的信号に変換され、ステップST2003において、電気信号をデジタル情報に変換された後、システムコントローラ9へ送信される。
次に、ステップST2004において、デジタル情報を入力として教科書1、または2にある種々の方法を用いて音響特徴量を取り出す。例えば、声道の形状に関連する音響的特徴の分析手法として、ケプストラム分析が一般に良く用いられる。ケプストラム分析では、音声信号を10ミリ秒程度の間隔で分析し、20次元程度の音響特徴量ベクトルの時系列データを得る。
次に、ステップST2005において、教科書1ないし2にある音響特徴量に基づいた音声認識用辞書106との種々の照合方法により、入力音声と類似するキーワードを算出する。例えば、入力された音声信号のケプストラム分析結果に対して、ケプストラムに基づいた音素モデルが対応付けられた音声認識用辞書106を用いて、もっとも音響的な類似性が高い検索キーワードを算出する。音素モデルは、ケプストラムの系列を出力する確率的なモデルとして、隠れマルコフモデル(HMM: Hidden Markov Model)が広く用いられている。あるいは、動的計画法に基づくDP(Dynamic Programming)マッチング手法を用いて、音響的類似性を算出しても良い。
次に、ステップST2006において、音声認識の結果、得られた抽出キーワードをもとに、番組表ガイドの各番組情報を検索する。検索処理では、各番組情報の中に、抽出キーワードを含む番組を検索し、提示情報として、番組のタイトル、放送チャネル、放送開始・終了時刻、出演者、番組の分類、番組のあらすじなどを得る。このとき、ヒットした抽出キーワード数に応じて、上記の提示情報にスコアを与え、優先順位を付けて提示することもできる。
次に、ステップST2007において、検索した番組情報をCRT6に表示する。このとき、例えば、ヒットした各番組をリスト形式で表示し、選択された番組の提示情報を項目別に表形式で表示するようにする。
さらに、ヒットした抽出キーワードの表示様態を変えて、ヒット内容の把握を容易にすることもできる。例えば、入力音声が、「ダーツ入門」であった場合、番組名「ダーツ&ビリヤード入門」が検索結果としてヒットし、入力音声に該当する「ダーツ」および「入門」の文字をハイライト表示することにより、得られた検索結果の内容が容易に把握できるようになる。表示様態はハイライト表示に限らず、文字の色、大きさ、フォントの種類、アニメーションなど、種々の方法が利用できる。
次に、文法の照合処理の具体例について説明する。図9は、文法の照合処理の具体的処理手順について示している。以下、図9を参照しつつ説明する。
まず、ステップST3001において、システムコントローラ9は、ステップST1002で得られた単語列候補をRAM11より取り出す。
次に、ステップST3002において、単語列候補が文法に合致する表現があるかを照合処理によりチェックする。表現が合致する場合には処理をステップST3003に、そうでない場合にはステップST3004に処理をすすめる。なお、ステップST3002で行なわれる文法の照合、およびステップST3003で行われる、文法に対応する処理の具体例については、後述する。
次に、ステップST3003において、文法に合致した単語列候補がある場合には文法に対応したキーワード生成処理を行なう。
また、ステップST3004においては、すべての単語列候補をチェックしたかチェックする。単語列候補が残っている場合には処理をステップST3001に移す。そうでない場合には処理を終了する。
また、ステップST3004においては、すべての単語列候補をチェックしたかチェックする。単語列候補が残っている場合には処理をステップST3001に移す。そうでない場合には処理を終了する。
次に、ステップST3003、及びステップST3004で行なわれる文法の照合、及び対応する処理の具体例について説明する。図10は、文法とそれに対応する照合のEBNF(Extended Backus Naur Form)表現を示している。EBNF表現とは、言語仕様における構文を厳密に定義するために、広く一般に用いられている表現形式である。例えば、図10において、「〜 ::= ・・・」は、「〜とは、・・・である」という定義の意味であり、また、「ぁ−ん」は、小文字を含む平仮名全体を指している。図11は、文法とそれに対応するキーワード生成処理を示している。以下に、図10で示した個々の文法の照合と、図11に示した対応するキーワード生成について例をあげて説明する。
文法(1)平仮名踊り字では、EBNF表現の文法として、「平仮名踊り字::=[ぁ−ん]ゝ」と定義してある。これは、小文字を含む平仮名に「ゝ」が後続した場合を意味している。この場合、単語「ゝ」に前接する単語の最後の1文字が平仮名である場合に、同じ読みを「ゝ」に与えて平仮名連接をキーワードにする。例えば表記が「あゝ」の場合は読みとして「ああ」を与え、このペアをキーワードとする。
文法(2)平仮名濁点踊り字では、EBNF表現の文法として、「平仮名踊り字::=[か−こさ−そた−とは−ほ]ゞ」と定義してある。これは、カ行、サ行、タ行、ハ行の平仮名に「ゞ」が後続した場合を意味している。この場合、単語「ゞ」に前接する単語の最後の1文字が濁音化可能な平仮名である場合に、その仮名を濁音化した読みを「ゞ」に与えて平仮名連接をキーワードにする。例えば、表記が「○すゞ」の場合は読みとして「○すず」を与え、このペアをキーワードとする。
文法(3)片仮名踊り字では、EBNF表現の文法として、「片仮名踊り字::=[ァ−ン]ヽ」と定義してある。これは、小文字を含む片仮名に「ヽ」が後続した場合を意味している。この場合、単語「ヽ」に前接する単語の最後の1文字が片仮名である場合に、同じ読みを「ヽ」に与えて片仮名連接をキーワードにする。例えば表記が「マゝ」の場合は読みとして「まま」を与え、このペアをキーワードとする。
文法(4)片仮名濁点踊り字では、EBNF表現の文法として、「片仮名踊り字::=[カ−コサ−ソタ−トハ−ホ]ヾ」と定義してある。これは、カ行、サ行、タ行、ハ行の平仮名に「ゞ」が後続した場合を意味している。この場合、単語「ヾ」に前接する単語の最後の1文字が濁音化可能な片仮名である場合に、その仮名を濁音化した読みを「ヾ」に与えて片仮名連接をキーワードにする。例えば、表記が「タヾ」の場合は読みとして「ただ」を与え、このペアをキーワードとする。
文法(5)漢字踊り字では、EBNF表現の文法として、「漢字踊り字::=[亜−遥]々」と定義してある。これは、漢字に「々」が後続した場合を意味している。この場合、単語「々」に前接する単語の最後の1文字が漢字である場合に、漢字の読みの先頭仮名が濁音化可能である場合には濁音化した読みを、そうでない場合には清音のままの読みを「々」に与えて漢字連接をキーワードにする。例えば、表記が「人々」の場合は読みとして「ひとびと」を与え、このペアをキーワードとする。
文法(6)一文字列では、EBNF表現の文法として、「一文字列::=[ぁ−んァ−ン]・[ぁ−んァ−ン](・[ぁ−んァ−ン])*」と定義してある。これは、1文字の平仮名または片仮名が、中黒「・」をはさんで連続している場合を意味している。この場合、単語「・」に1文字の仮名が前接、及び後接する場合に、中黒を除いて1文字列を連接して1つのキーワードを生成する。例えば、表記が「ヒ・ミ・ツ」の場合は読みとして「ひみつ」を与え、このペアをキーワードとする。なお、EBNF表現中の記号「*」は任意回数の繰り返しを示す。
文法(7)二乗表現では、EBNF表現の文法として、「二乗表現::=<単語>×2」と定義してある。これは、単語に「×2」という単語が後続していることを意味する。この場合、単語「×2」に単語が前接する場合に、前接続単語と同じ読みを加えてキーワードを生成する。例えば、表記が「ラブ×2」の場合は読みとして「らぶらぶ」を与え、このペアをキーワードとする。
文法(8)&表現では、EBNF表現の文法として、「&表現::=<単語1>&|と<単語2>入門|トーク|映像」と定義してある。これは、単語1と単語2の間に「&」や「と」が存在し、かつ、単語2に「入門」「トーク」「映像」の単語が後続していることを意味している。この場合、単語「&」(または「と」)に単語1が前接し、単語2が後接し、さらに単語2に「入門」、「トーク」、及び「映像」の語が後接する場合に、単語1と「&」と単語2の連接をキーワードにするとともに「入門」、「トーク」、及び「映像」を、それぞれ単語1及び単語2に連接させたキーワードを生成する。例えば、表記が「ダーツ&ビリヤード入門」の場合は下記のペアがキーワードとなる。
表記「ダーツ&ビリヤード入門」、読み「だーつあんどびりやーど」
表記「ダーツ&ビリヤード入門」、読み「だーつあんどびりやーどにゅーもん」
表記「ダーツ&ビリヤード入門」、読み「だーつ」
表記「ダーツ&ビリヤード入門」、読み「びりやーど」
表記「ダーツ&ビリヤード入門」、読み「だーつにゅーもん」
表記「ダーツ&ビリヤード入門」、読み「びりやーどにゅーもん」
表記「ダーツ&ビリヤード入門」、読み「だーつあんどびりやーど」
表記「ダーツ&ビリヤード入門」、読み「だーつあんどびりやーどにゅーもん」
表記「ダーツ&ビリヤード入門」、読み「だーつ」
表記「ダーツ&ビリヤード入門」、読み「びりやーど」
表記「ダーツ&ビリヤード入門」、読み「だーつにゅーもん」
表記「ダーツ&ビリヤード入門」、読み「びりやーどにゅーもん」
文法(9)VS表現では、EBNF表現の文法として、「VS表現::=<単語1>対|VS<単語2>戦|決戦|対戦|対決」と定義してある。これは、単語1と単語2の間に「対」や「VS」が存在し、かつ、単語2に「戦」「決戦」「対戦」「対決」の単語が後続していることを意味している。この場合、単語「対」(または「VS」)に単語1が前接し、単語2が後接し、さらに単語2に「戦」、「決戦」、「対戦」、及び「対決」の語が後接する場合に、単語1と「VS」と単語2の連接をキーワードにするとともに「戦」、「決戦」、「対戦」、及び「対決」を、それぞれ単語1及び単語2に連接させたキーワードを生成する。例えば、表記が「巨人対阪神戦」の場合は下記のペアがキーワードとなる。
表記「巨人対阪神戦」、読み「きょじんたいはんしん」
表記「巨人対阪神戦」、読み「きょじんたいはんしんせん」
表記「巨人対阪神戦」、読み「きょじん」
表記「巨人対阪神戦」、読み「はんしん」
表記「巨人対阪神戦」、読み「きょじんせん」
表記「巨人対阪神戦」、読み「はんしんせん」
表記「巨人対阪神戦」、読み「きょじんたいはんしん」
表記「巨人対阪神戦」、読み「きょじんたいはんしんせん」
表記「巨人対阪神戦」、読み「きょじん」
表記「巨人対阪神戦」、読み「はんしん」
表記「巨人対阪神戦」、読み「きょじんせん」
表記「巨人対阪神戦」、読み「はんしんせん」
以上のように本実施の形態によれば、音声認識用辞書106を用いた音声認識機能を有する電子番組ガイドの操作装置を構成することにより、「ヒ・ミ・ツ」や「ラブ×2」のような電子番組ガイド固有の言語表現の読みを生成し、また、番組タイトルの一部を省略した自由な発話を受け付けて音声認識することが可能になるため、電子番組ガイド固有の言語表現や、新出する言語表現に柔軟に対応できて、音声認識機能を十分に活用することができるようになる。
1 アンテナ、 2 チューナ、 3 DEMUX回路、 4 AVデコーダ、 5 マルチプレクサ(合成回路)、 6 CRT、 7 スピーカ、 8 OSDコントローラ、 9 システムコントローラ、 10 ROM、 11 RAM、 12 不揮発性メモリ、 13 マイク、 14 リモコン、 101 形態素解析、 102 単語辞書、 103 キーワード生成、 104 キーワード生成知識、 105 音声認識用辞書生成、 106 音声認識用辞書、 107 音声入力、 108 音声認識、 109 検索、 201 単語リストの例、 202 単語候補の例。
Claims (8)
- 検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、前記形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照し、前記言語特徴が適合する前記形態素列の表現に対して、言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を前記音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された前記単語に基づいて検索する検索手段と、を備えていることを特徴とする音声検索装置。
- 前記キーワード生成知識は、特定の言語特徴を抽出する照合パタンと、照合パタンに対応するキーワード生成処理とを対応付けて文法として保持し、前記キーワード生成手段は、キーワード生成知識の前記文法に従って、新規のキーワードを生成することを特徴とする請求項1に記載の音声検索装置。
- 前記キーワード生成知識は、読みが確定していない単語の読みを一意に決定する文法を保持することを特徴とする請求項1または請求項2に記載の音声検索装置。
- 前記キーワード生成処理は、前記形態素列から、前記文法に適合する複数の単語の組を抽出し、新規なキーワードを生成することを特徴とする請求項1から請求項3のいずれかに記載の音声検索装置。
- 前記検索手段は検索結果に含まれるキーワード数に応じて、表示する情報にスコアを与えて優先順位を付けて表示することを特徴とする請求項1から請求項4のいずれかに記載の音声検索装置。
- 前記検索手段は検索結果に含まれるキーワードの表示様態を変更して表示することを特徴とする請求項1から請求項5のいずれかに記載の音声検索装置。
- コンピュータを、検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、前記形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照し、前記言語特徴が適合する前記形態素列の表現に対して、言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、前記生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を前記音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された前記単語に基づいて検索する検索手段と、して機能させるための音声検索プログラム。
- 検索対象テキストを形態素解析し、単語に分割された形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照して、前記言語特徴が適合する前記形態素列の表現に対して、前記言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成した後、前記生成されたキーワードで検索可能な音声認識用辞書を生成し、検索するための単語をユーザに音声として入力させて、入力された音声に対応する単語を前記生成された音声認識用辞書に基づいて認識して出力し、認識して出力された前記単語に基づいて検索することを特徴とする音声検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078502A JP2007257134A (ja) | 2006-03-22 | 2006-03-22 | 音声検索装置、音声検索方法および音声検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006078502A JP2007257134A (ja) | 2006-03-22 | 2006-03-22 | 音声検索装置、音声検索方法および音声検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007257134A true JP2007257134A (ja) | 2007-10-04 |
Family
ID=38631350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006078502A Pending JP2007257134A (ja) | 2006-03-22 | 2006-03-22 | 音声検索装置、音声検索方法および音声検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007257134A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106272A (ja) * | 2012-11-26 | 2014-06-09 | National Institute Of Information & Communication Technology | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
KR20150080684A (ko) * | 2014-01-02 | 2015-07-10 | 삼성전자주식회사 | 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들 |
WO2018015041A1 (de) | 2016-07-20 | 2018-01-25 | Audi Ag | Verfahren zum konfigurieren einer sprachgesteuerten bedienvorrichtung, bedienvorrichtung mit sprachsteuerung und kraftfahrzeug |
CN112243524A (zh) * | 2019-03-20 | 2021-01-19 | 海信视像科技股份有限公司 | 节目名检索辅助装置以及节目名检索辅助方法 |
-
2006
- 2006-03-22 JP JP2006078502A patent/JP2007257134A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106272A (ja) * | 2012-11-26 | 2014-06-09 | National Institute Of Information & Communication Technology | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
KR20150080684A (ko) * | 2014-01-02 | 2015-07-10 | 삼성전자주식회사 | 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들 |
KR102210933B1 (ko) * | 2014-01-02 | 2021-02-02 | 삼성전자주식회사 | 음성 신호에 따라 컨텐츠 정보를 검색하여 제공하는 디스플레이 장치, 서버 장치 및 이들을 포함하는 음성 입력 시스템과, 그 방법들 |
WO2018015041A1 (de) | 2016-07-20 | 2018-01-25 | Audi Ag | Verfahren zum konfigurieren einer sprachgesteuerten bedienvorrichtung, bedienvorrichtung mit sprachsteuerung und kraftfahrzeug |
DE102016008862A1 (de) | 2016-07-20 | 2018-01-25 | Audi Ag | Verfahren zum Konfigurieren einer sprachgesteuerten Bedienvorrichtung, Bedienvorrichtung mit Sprachsteuerung und Kraftfahrzeug |
CN112243524A (zh) * | 2019-03-20 | 2021-01-19 | 海信视像科技股份有限公司 | 节目名检索辅助装置以及节目名检索辅助方法 |
CN112243524B (zh) * | 2019-03-20 | 2023-08-04 | 海信视像科技股份有限公司 | 节目名检索辅助装置以及节目名检索辅助方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4459267B2 (ja) | 辞書データ生成装置及び電子機器 | |
JP6603754B2 (ja) | 情報処理装置 | |
KR101897492B1 (ko) | 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법 | |
US9183832B2 (en) | Display apparatus and method for executing link and method for recognizing voice thereof | |
WO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
US8688725B2 (en) | Search apparatus, search method, and program | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
CN107155121B (zh) | 语音控制文本的显示方法及装置 | |
CN110740275B (zh) | 一种非线性编辑系统 | |
CN113225612B (zh) | 字幕生成方法、装置、计算机可读存储介质及电子设备 | |
CN110781649A (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
JP4100243B2 (ja) | 映像情報を用いた音声認識装置及び方法 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
JP2007257134A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
US8000965B2 (en) | Information-processing device and method that attains speech-recognition to recognize data input via speech | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP2004334409A (ja) | データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP6676093B2 (ja) | 異言語間コミュニケーション支援装置及びシステム | |
KR20120083025A (ko) | 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 | |
US11455990B2 (en) | Electronic device and control method therefor | |
JP4175141B2 (ja) | 音声認識機能を有する番組情報表示装置 | |
KR101218332B1 (ko) | 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체 | |
KR100954262B1 (ko) | 멀티미디어파일의 가사 또는 자막 재생 시 어학 학습기 알고리즘 구현 및 그 방법 | |
CN112002304A (zh) | 语音合成方法及装置 |