JP2007257134A

JP2007257134A - 音声検索装置、音声検索方法および音声検索プログラム

Info

Publication number: JP2007257134A
Application number: JP2006078502A
Authority: JP
Inventors: Hirotaka Goi; 啓恭伍井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-03-22
Filing date: 2006-03-22
Publication date: 2007-10-04

Abstract

【課題】文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現の検索を可能にする。
【解決手段】特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識１０４を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段１０３と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段１０５と、入力された音声に対応する単語を音声認識用辞書に基づいて認識して出力する音声認識手段１０８と、認識された単語に基づいて検索する検索手段１０９とを備える。
【選択図】図１

Description

本発明は、音声認識に関するものであり、デジタルＴＶの電子番組情報から検索キーワードを抽出し、適切な読みを付与することにより新出する言語表現の音声認識を可能にし、音声による電子番組情報の効率的な検索を可能とする音声検索装置に関する。

放送のデジタル化により、地上送信波、放送衛星、通信衛星、及びＣＡＴＶによる放送、さらにはインターネット通信画像を受信する機能など、デジタルＴＶが受信する放送やソースは多岐に渡るようになり、大量の番組情報がデジタルＴＶで取得できるようになった。例えば、近年開始された多チャンネルデジタル衛星放送システムでは、１００以上の多数のチャンネルが用意されており、多数の番組が提供されている。このような状況においては、デジタルＴＶによって所望の番組を受信したり、将来放送される番組を予約したりしようとするユーザは、従来のように新聞や雑誌など印刷媒体で供給される番組表を用いて番組を選択することがますます困難になりつつある。

そこで、番組の選択を支援するために、今までにない機能、例えば、現在放送されている番組及び将来放送される番組案内情報が、本来の番組データとともに所定時間間隔で伝送されてくるようになった。さらに、番組の選択操作を容易にする目的で、電子番組ガイド（ＥＰＧ：ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ）が提案され、実用化されている。デジタルでＴＶでは、これらの情報を基に、番組表、メニュー等の表示データを作成する。これによりユーザは、画面上に表示した番組表、メニューから、番組を選択することができるようになってきた。

しかしながら、電子番組ガイドを用いても、ユーザが希望する番組を見つけ出すためには多くのリモコン操作が必要になり、いくつもの煩雑なステップをたどらざるを得ないという問題点がある。
例えば、電子番組ガイドでは、番組に関する電子的なデータをユーザが入手して番組の選択に用いる。番組に関する電子的なデータとは、番組のタイトル、放送チャネル、放送開始・終了時刻、出演者、番組の分類、番組のあらすじなどであり、様々な項目が考えられる。具体的には、コンピュータ・ＴＶゲーム番組の「インターネット＆メール入門」を探す場合には、まず、ジャンル検索機能を使用するための検索画面を表示させ、その検索画面上で「趣味・娯楽」を選択し、数多い趣味・娯楽ジャンルの中から「コンピュータ・ＴＶゲーム」を選択する。そして、検索結果から、「インターネット＆メール入門」を探すことになる。

このように従来の装置では、ジャンルやキーワードを画面選択等で選択する必要があるため、ジャンル数やキーワード数が増加すると、キーの少ないリモコンでは選択に煩雑な操作が必要になるという課題があった。そこで、従来から、音声入力で番組検索する技術が検討されており、代表的な従来技術として、下記の特許文献１や特許文献４が開示されている。以下、用いる専門用語は、下記の非特許文献１から３までの文献において表される用語を用いるものとする。

音声認識で番組を検索するには、番組を検索するための、番組内のキーワードの抽出と、キーワードの読みの付与がなされていなくてはならないため、番組情報を正確に解析してキーワードを抽出し、さらに、読みを付与する技術が注目されている。

まず、特許文献１は、音声認識技術を用いて番組のジャンルやキーワードを発声するだけで所望の番組を検索できるようにしたものであり、テンプレートを用いて番組情報から抽出したキーワードとマッチングをとることにより、連接する単語の区切り精度と、読み付与の精度を向上させ、音声で番組検索する技術が開示されている。また、特許文献２では、新たに登場する、電子番組ガイドに含まれる単語を、漢字かな変換の辞書を用いて読み情報を取得し、音声認識の辞書に登録する技術が開示されている。
また、特許文献３では、検索精度向上のために、電子番組ガイドから検索用に抽出したキーワードと類義関係にある類義語を追加して、検索漏れの少ないキーワード群を生成する技術を開示している。また、特許文献４では、正確な読みの付与のために、「々」や「ゞ」といった、一般に「踊り字」と呼ぶ繰り返し符号を用いた単語の読みを決定するための技術を開示している。

特開２００１−３０９２５６号公報（第６−７頁、第１図、第２図−第７図）特開２００１−２２３７４号公報（第７−８頁、第１図、第２図）特開２００４−３３４２８０号公報（第１４−１５頁、第１図−第７図）特開２００４−２９４５４２号公報（第２０頁、第１４図、第１５図）鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著「音声認識システム」株式会社オーム社、平成１３年５月１５日（以下、教科書１）中川聖一著「確率モデルによる音声認識」社団法人電子情報通信学会、昭和６３年７月１日（以下、教科書２）長尾真著、「自然言語処理」、岩波書店，１９９６年４月２６日（以下、教科書３）

しかしながら、このように構成された音声認識機能を有する電子番組ガイドの操作装置においては、新たに以下の課題が発生している。それは、電子番組ガイドに固有の表現や、辞書に存在しない新出する言語表現に対応できない、という点である。

より具体的には、音声認識装置には、音声認識用の辞書が用意されており、その辞書には言葉の読みと表記の文字列とが対で予め登録されている。このため、辞書に登録されていなければ音声を認識することが出来ない。しかし、電子番組ガイドに固有の日々変化する言語表現に対応して、無数の単語を登録することは、デジタルＴＶのハードウェアリソースを圧迫することになり、リソース管理の観点からも望ましいとはいえない。また、検索精度の観点からも、同音異義語の単語が多くヒットするようになり、検索結果の品質劣化を招くことになる。

このため、無数の単語を辞書に登録していくのではなく、一定期間の電子番組ガイドの言語表現から抽出した単語の読みを新たに生成して、必要な語彙だけ辞書を更新していくというアプローチが従来から採られている。

しかし、テンプレートとのパターンマッチングにより単語の区切りを決定する特許文献１では、パターンに部分一致した文字列をキーワードとしていたため、表記「ヒ・ミ・ツ」（読み：ヒミツ）など自身が文字に分割される単語や、表記「○△寧々」（読み：〜ねね）、表記「○すゞ」（読み：〜すず）などの「々」や「ゞ」といった、「踊り字」を用いた単語、さらには表記「デリ×2キッチン」（読み：でりでりきっちん）など、電子番組ガイドに固有の特殊な構造を持つ単語は、キーワードとして抽出できず、音声認識の対象にはできなかった。同様に、特許文献２や特許文献３でも、上記のような単語は、漢字かな変換の辞書に存在しないか、類義語辞書に存在しない場合に、読み情報を生成できず、音声認識の対象にできないという課題があった。

さらに、特許文献１では、表記「ダーツ＆ビリヤード入門」（読み：だーつあんどびりやーどにゅうもん）の表現に対して、（読み：びりやーどにゅうもん）という単語連接では検索できるが、（読み：だーつにゅうもん）という電子番組ガイド内に存在しない新しい単語連接で検索することはできなかった。同様に、特許文献２から４も、上記のような新しい単語連接は辞書に存在しないため、新出する言語表現を検索することができないという課題があった。

本発明は、上記の課題を解決するためになされたものであり、文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現の検索を可能にすることを目的とする。

本発明に係る音声検索装置、音声検索方法および音声検索プログラムは、検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された単語に基づいて検索する検索手段とを備えたものである。

本発明によれば、文法と単語の情報を用いて新たな検索キーワードを生成し、従来技術では検索できなかった電子番組ガイドに固有の言語表現や、辞書に存在しない新出する言語表現を検索できるようになる。

実施の形態１．
以下、本発明の実施の形態１について説明する。図１は、本発明の構成図を示すものである。形態素解析手段１０１は、単語辞書１０２を参照して、入力された検索対象テキストを形態素解析し、単語に分割された形態素列として出力する。キーワード生成手段１０３は、特定の言語表現を定義する言語特徴と、言語特徴に対応するキーワード生成処理とを定義したキーワード生成知識１０４を参照し、言語特徴が適合する形態素列の表現に対して、言語特徴に対応するキーワード生成処理を実行して新規のキーワードを生成する。音声認識用辞書生成手段１０５は、生成されたキーワードで検索可能な音声認識用辞書を生成する。音声入力手段１０７は、検索するための単語をユーザに音声として入力させる。音声認識手段１０８は、入力された音声に対応する単語を音声認識用辞書１０６に基づいて認識して出力する。検索手段１０９は、認識された単語に基づいて、番組表ガイドの番組情報を検索する。

以下、本発明の具体的な実施例として、デジタルＴＶにおける音声検索の実施例１について、図２に示した本発明の実施例１における構成図のブロック図を参照しつつ説明する。なお、本発明は実施例としてデジタルＴＶに限定されるものではなく、ＤＶＤ・ハードディスクレコーダ、ＡＶ機器、各種家電製品、ゲーム機など、広範な分野の情報家電製品に適用可能であることはいうまでもない。

図２のブロック図では、図１に示した各構成要素が以下のような対応になっている。
形態素解析手段１０１は、システムコントローラ９で実行される。単語辞書１０２は、ＲＯＭ１０に格納される。キーワード生成手段１０３は、システムコントローラ９で実行される。キーワード生成知識１０４は、ＲＯＭ１０に格納される。音声認識用辞書生成手段１０５は、システムコントローラ９で実行される。音声認識用辞書１０６は、不揮発性メモリ１２に格納される。音声入力手段１０７は、マイク１３を使用する。音声認識手段１０８は、システムコントローラ９で実行される。検索手段１０９は、システムコントローラ９で実行される。

まず、デジタルＴＶは、システムコントローラ９を備えており、そのプログラムや辞書等を記憶するＲＯＭ１０と、必要なデータを記憶するＲＡＭ１１と、書き込みおよび読み出しが可能な不揮発性メモリ１２とを備えている。

放送波は、アンテナ１を介してチューナ２に送られ、高周波処理および復調が行われる。チューナ２からの出力は、ＤＥＭＵＸ（Ｄｅｍｕｌｔｉｐｌｅｘｅｒ、シリアル−パラレル変換器、分配化装置）回路３に送られ、パケットの復号が行われる。

ＤＥＭＵＸ回路３において、パケットは、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ、マルチメディア符号化の規格）データと番組案内情報等の付属情報とに分別される。ＤＥＭＵＸ回路３によって分別されたＭＰＥＧデータは、ＡＶデコーダ４に送られ、番組案内情報等の付属情報は、システムコントローラ９に送られる。システムコントローラ９は、ＤＥＭＵＸ回路３から送られてきた番組案内情報等の付属情報を、ＲＡＭ１１に格納する。システムコントローラ９には、リモコン１４からのリモコン信号が入力される。

システムコントローラ９は、チューナ２およびＤＥＭＵＸ回路３に選局のための情報等を送る。また、システムコントローラ９は、各種操作画面をＣＲＴ６にオンスクリーン表示させるためのＯＳＤ制御信号を、ＯＳＤコントローラ８に送る。ＯＳＤコントローラ８は、番組ガイド、メニュー等の表示データを生成して、ＯＳＤ信号としてマルチプレクサ（合成回路）５に送る。

ＡＶデコーダ４は、ＤＥＭＵＸ回路３から送られてきたＭＰＥＧデータを復調する。ＡＶデコーダ４によって得られた映像信号は、マルチプレクサ５に送られる。マルチプレクサ５は、映像信号にＯＳＤコントローラ８から送られてきた表示データをスーパーインポーズ処理して、映像信号化したうえでＣＲＴ６に送る。図３に、ＣＲＴ６に表示される番組案内画面の一例を示す。図中の表では、横軸に各ＴＶ局、縦軸に各時間帯に放映される番組名が表示されている。例えば、ＴＶ局１の番組として、「ダーツ＆ビリヤード入門」が放映予定であり、同様に、ＴＶ局２では「ヒ・ミ・ツにしてね」、ＴＶ局３では「デリ×２キッチン」が放映予定であることを示してある。また、ＡＶデコーダ４によって得られた音声信号は、スピーカ７に送られ音声として出力される。

次に、音声入力による番組検索の動作について説明する。このデジタルＴＶは、ユーザによって音声入力された単語に基づいて、番組を検索する機能を備えている。この機能を達成するために、マイク１３を備えている。このマイク１３は、デジタルＴＶ本体側、あるいはリモコン側のどちらに備えていてもかまわない。

また、ＲＯＭ１０には、単語辞書１０２が格納されている。単語辞書１０２の一例を、図４に示す。単語辞書１０２には、形態素解析で用いる言語情報として、識別番号で管理された単語の見出し、読み、品詞等を含むデータが記憶されている。システムコントローラ９は、番組案内情報に基づいて、単語辞書１０２を用いて不揮発性メモリ１２内に音声認識用辞書１０６を作成する。そして、ユーザからの入力音声を音声認識用辞書１０６に基づいて音声認識を行い、認識した単語に基づいて番組を検索する。

次に、音声認識用辞書１０６の作成手順について説明する。図５は、システムコントローラ９によって作成される音声認識用辞書１０６の作成処理手順を示している。以下、図５を参照しながら説明する。

まず、ステップＳＴ１００１において、システムコントローラ９は、ＲＡＭ１１に格納された番組案内情報を解析し、番組案内情報から各番組の番組名、出演者、内容等のテキスト情報を抽出する。

次に、ステップＳＴ１００２において、抽出されたテキスト情報に対して、ＲＯＭ１０に格納された単語辞書１０２を用いて形態素解析１０１を行なう。形態素解析１０１とは、単語辞書１０２に登録された単語の見出し、読み、品詞等の言語情報を利用して入力文を解析し、入力されたテキスト情報を単語に分割する処理である。例えば「ダーツ＆ビリヤード入門」というタイトルが入力文として入力された場合には、図６、２０１に示すように、入力文を単語分割して単語リストを生成する。このとき、「文頭」、及び「文末」は、タイトルの先頭と末端を示す特殊な単語である。分割された単語は、例えば教科書３にある形態素数最小法を用いて、連接する単語数の最小の単語連鎖が選択される。ここでは図７、２０２に示す単語連鎖が単語列候補として選択される。このようにして、形態素解析１０１により、単語列候補を作成する。

次に、ステップＳＴ１００３において、単語列候補と文法を照合し、文法に合致する単語列候補に対して、それぞれの文法に対応付けられた処理を行なう。なお、ステップＳＴ１００３で行なわれる文法の照合処理、および文法に対応付けられた処理の具体例については後述する。
次に、ステップＳＴ１００４において、文法に対応した処理により得られた各キーワードについて、読みとペアで検索キーワードを生成し、不揮発性メモリ１２にこれを記憶する。なお、検索キーワードの生成処理の具体例についても後述する。

最後に、ステップＳＴ１００５において、不揮発性メモリ１２に蓄積されている検索キーワードについて、音声認識用辞書１０６を作成し、処理を終了する。音声認識用辞書１０６は、例えば、音響特徴量に基づく音素モデルを用いて、入力音声の音響特徴量との類似度計算を行なう際に、効率的な類似度計算ができるように、検索キーワード全体の音素系列をネットワーク形式で表現したものが用いられる。なお、音声認識用辞書１０６はネットワーク形式に限定されるものではなく、単語単位の音素系列パタンとして作成しても良く、また、その他の一般的に用いられる音響的な類似度を計算する手法を用いてもよい。

上記の音声認識用辞書１０６の作成処理は、例えば、深夜の放送の空き時間帯を利用して実行され、その都度、音声認識用辞書１０６の内容が更新されるようにする。このようにすることで、音声検索装置のハードウェアリソース使用量が日々増大しないようにできる。

以上が、音声認識用辞書１０６の作成処理の説明であるが、次に、作成された音声認識用辞書１０６を使用して、ユーザが音声入力により番組を検索する処理を説明する。図８は、システムコントローラ９によって行なわれる音声入力による番組検索処理手順を示している。音声入力による番組検索モード時においては、ユーザはマイク１３を用いて選択したい番組を特定するための単語を音声入力する。番組を特定するための単語としては、ジャンル名、番組名、出演者名等が挙げられる。

以下、図８を参照しつつ、音声入力による番組検索処理手順を説明する。
まず、ステップＳＴ２００１において、マイク１３から音声を取り込む。マイク１３は、リモコン１４に内蔵されているか、あるいは、外部からシステムコントローラ９に直接接続された形態でも良い。取り込まれた音声は、ステップＳＴ２００２において、電気的信号に変換され、ステップＳＴ２００３において、電気信号をデジタル情報に変換された後、システムコントローラ９へ送信される。

次に、ステップＳＴ２００４において、デジタル情報を入力として教科書１、または２にある種々の方法を用いて音響特徴量を取り出す。例えば、声道の形状に関連する音響的特徴の分析手法として、ケプストラム分析が一般に良く用いられる。ケプストラム分析では、音声信号を１０ミリ秒程度の間隔で分析し、２０次元程度の音響特徴量ベクトルの時系列データを得る。

次に、ステップＳＴ２００５において、教科書１ないし２にある音響特徴量に基づいた音声認識用辞書１０６との種々の照合方法により、入力音声と類似するキーワードを算出する。例えば、入力された音声信号のケプストラム分析結果に対して、ケプストラムに基づいた音素モデルが対応付けられた音声認識用辞書１０６を用いて、もっとも音響的な類似性が高い検索キーワードを算出する。音素モデルは、ケプストラムの系列を出力する確率的なモデルとして、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が広く用いられている。あるいは、動的計画法に基づくＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチング手法を用いて、音響的類似性を算出しても良い。

次に、ステップＳＴ２００６において、音声認識の結果、得られた抽出キーワードをもとに、番組表ガイドの各番組情報を検索する。検索処理では、各番組情報の中に、抽出キーワードを含む番組を検索し、提示情報として、番組のタイトル、放送チャネル、放送開始・終了時刻、出演者、番組の分類、番組のあらすじなどを得る。このとき、ヒットした抽出キーワード数に応じて、上記の提示情報にスコアを与え、優先順位を付けて提示することもできる。

次に、ステップＳＴ２００７において、検索した番組情報をＣＲＴ６に表示する。このとき、例えば、ヒットした各番組をリスト形式で表示し、選択された番組の提示情報を項目別に表形式で表示するようにする。

さらに、ヒットした抽出キーワードの表示様態を変えて、ヒット内容の把握を容易にすることもできる。例えば、入力音声が、「ダーツ入門」であった場合、番組名「ダーツ＆ビリヤード入門」が検索結果としてヒットし、入力音声に該当する「ダーツ」および「入門」の文字をハイライト表示することにより、得られた検索結果の内容が容易に把握できるようになる。表示様態はハイライト表示に限らず、文字の色、大きさ、フォントの種類、アニメーションなど、種々の方法が利用できる。

次に、文法の照合処理の具体例について説明する。図９は、文法の照合処理の具体的処理手順について示している。以下、図９を参照しつつ説明する。

まず、ステップＳＴ３００１において、システムコントローラ９は、ステップＳＴ１００２で得られた単語列候補をＲＡＭ１１より取り出す。

次に、ステップＳＴ３００２において、単語列候補が文法に合致する表現があるかを照合処理によりチェックする。表現が合致する場合には処理をステップＳＴ３００３に、そうでない場合にはステップＳＴ３００４に処理をすすめる。なお、ステップＳＴ３００２で行なわれる文法の照合、およびステップＳＴ３００３で行われる、文法に対応する処理の具体例については、後述する。

次に、ステップＳＴ３００３において、文法に合致した単語列候補がある場合には文法に対応したキーワード生成処理を行なう。
また、ステップＳＴ３００４においては、すべての単語列候補をチェックしたかチェックする。単語列候補が残っている場合には処理をステップＳＴ３００１に移す。そうでない場合には処理を終了する。

次に、ステップＳＴ３００３、及びステップＳＴ３００４で行なわれる文法の照合、及び対応する処理の具体例について説明する。図１０は、文法とそれに対応する照合のＥＢＮＦ（ＥｘｔｅｎｄｅｄＢａｃｋｕｓＮａｕｒＦｏｒｍ）表現を示している。ＥＢＮＦ表現とは、言語仕様における構文を厳密に定義するために、広く一般に用いられている表現形式である。例えば、図１０において、「〜：：＝・・・」は、「〜とは、・・・である」という定義の意味であり、また、「ぁ−ん」は、小文字を含む平仮名全体を指している。図１１は、文法とそれに対応するキーワード生成処理を示している。以下に、図１０で示した個々の文法の照合と、図１１に示した対応するキーワード生成について例をあげて説明する。

文法（１）平仮名踊り字では、ＥＢＮＦ表現の文法として、「平仮名踊り字：：＝[ぁ−ん]ゝ」と定義してある。これは、小文字を含む平仮名に「ゝ」が後続した場合を意味している。この場合、単語「ゝ」に前接する単語の最後の1文字が平仮名である場合に、同じ読みを「ゝ」に与えて平仮名連接をキーワードにする。例えば表記が「あゝ」の場合は読みとして「ああ」を与え、このペアをキーワードとする。

文法（２）平仮名濁点踊り字では、ＥＢＮＦ表現の文法として、「平仮名踊り字：：＝[か−こさ−そた−とは−ほ]ゞ」と定義してある。これは、カ行、サ行、タ行、ハ行の平仮名に「ゞ」が後続した場合を意味している。この場合、単語「ゞ」に前接する単語の最後の１文字が濁音化可能な平仮名である場合に、その仮名を濁音化した読みを「ゞ」に与えて平仮名連接をキーワードにする。例えば、表記が「○すゞ」の場合は読みとして「○すず」を与え、このペアをキーワードとする。

文法（３）片仮名踊り字では、ＥＢＮＦ表現の文法として、「片仮名踊り字：：＝[ァ−ン]ヽ」と定義してある。これは、小文字を含む片仮名に「ヽ」が後続した場合を意味している。この場合、単語「ヽ」に前接する単語の最後の1文字が片仮名である場合に、同じ読みを「ヽ」に与えて片仮名連接をキーワードにする。例えば表記が「マゝ」の場合は読みとして「まま」を与え、このペアをキーワードとする。

文法（４）片仮名濁点踊り字では、ＥＢＮＦ表現の文法として、「片仮名踊り字：：＝[カ−コサ−ソタ−トハ−ホ]ヾ」と定義してある。これは、カ行、サ行、タ行、ハ行の平仮名に「ゞ」が後続した場合を意味している。この場合、単語「ヾ」に前接する単語の最後の1文字が濁音化可能な片仮名である場合に、その仮名を濁音化した読みを「ヾ」に与えて片仮名連接をキーワードにする。例えば、表記が「タヾ」の場合は読みとして「ただ」を与え、このペアをキーワードとする。

文法（５）漢字踊り字では、ＥＢＮＦ表現の文法として、「漢字踊り字：：＝[亜−遥]々」と定義してある。これは、漢字に「々」が後続した場合を意味している。この場合、単語「々」に前接する単語の最後の1文字が漢字である場合に、漢字の読みの先頭仮名が濁音化可能である場合には濁音化した読みを、そうでない場合には清音のままの読みを「々」に与えて漢字連接をキーワードにする。例えば、表記が「人々」の場合は読みとして「ひとびと」を与え、このペアをキーワードとする。

文法（６）一文字列では、ＥＢＮＦ表現の文法として、「一文字列：：＝[ぁ−んァ−ン]・[ぁ−んァ−ン]（・[ぁ−んァ−ン]）＊」と定義してある。これは、１文字の平仮名または片仮名が、中黒「・」をはさんで連続している場合を意味している。この場合、単語「・」に1文字の仮名が前接、及び後接する場合に、中黒を除いて1文字列を連接して１つのキーワードを生成する。例えば、表記が「ヒ・ミ・ツ」の場合は読みとして「ひみつ」を与え、このペアをキーワードとする。なお、ＥＢＮＦ表現中の記号「＊」は任意回数の繰り返しを示す。

文法（７）二乗表現では、ＥＢＮＦ表現の文法として、「二乗表現：：＝＜単語＞×２」と定義してある。これは、単語に「×２」という単語が後続していることを意味する。この場合、単語「×２」に単語が前接する場合に、前接続単語と同じ読みを加えてキーワードを生成する。例えば、表記が「ラブ×２」の場合は読みとして「らぶらぶ」を与え、このペアをキーワードとする。

文法（８）＆表現では、ＥＢＮＦ表現の文法として、「＆表現：：＝＜単語１＞＆｜と＜単語２＞入門｜トーク｜映像」と定義してある。これは、単語１と単語２の間に「＆」や「と」が存在し、かつ、単語２に「入門」「トーク」「映像」の単語が後続していることを意味している。この場合、単語「＆」（または「と」）に単語１が前接し、単語２が後接し、さらに単語２に「入門」、「トーク」、及び「映像」の語が後接する場合に、単語１と「＆」と単語２の連接をキーワードにするとともに「入門」、「トーク」、及び「映像」を、それぞれ単語１及び単語２に連接させたキーワードを生成する。例えば、表記が「ダーツ＆ビリヤード入門」の場合は下記のペアがキーワードとなる。
表記「ダーツ＆ビリヤード入門」、読み「だーつあんどびりやーど」
表記「ダーツ＆ビリヤード入門」、読み「だーつあんどびりやーどにゅーもん」
表記「ダーツ＆ビリヤード入門」、読み「だーつ」
表記「ダーツ＆ビリヤード入門」、読み「びりやーど」
表記「ダーツ＆ビリヤード入門」、読み「だーつにゅーもん」
表記「ダーツ＆ビリヤード入門」、読み「びりやーどにゅーもん」

文法（９）ＶＳ表現では、ＥＢＮＦ表現の文法として、「ＶＳ表現：：＝＜単語１＞対｜ＶＳ＜単語２＞戦｜決戦｜対戦｜対決」と定義してある。これは、単語１と単語２の間に「対」や「ＶＳ」が存在し、かつ、単語２に「戦」「決戦」「対戦」「対決」の単語が後続していることを意味している。この場合、単語「対」（または「ＶＳ」）に単語１が前接し、単語２が後接し、さらに単語２に「戦」、「決戦」、「対戦」、及び「対決」の語が後接する場合に、単語1と「ＶＳ」と単語２の連接をキーワードにするとともに「戦」、「決戦」、「対戦」、及び「対決」を、それぞれ単語１及び単語２に連接させたキーワードを生成する。例えば、表記が「巨人対阪神戦」の場合は下記のペアがキーワードとなる。
表記「巨人対阪神戦」、読み「きょじんたいはんしん」
表記「巨人対阪神戦」、読み「きょじんたいはんしんせん」
表記「巨人対阪神戦」、読み「きょじん」
表記「巨人対阪神戦」、読み「はんしん」
表記「巨人対阪神戦」、読み「きょじんせん」
表記「巨人対阪神戦」、読み「はんしんせん」

以上のように本実施の形態によれば、音声認識用辞書１０６を用いた音声認識機能を有する電子番組ガイドの操作装置を構成することにより、「ヒ・ミ・ツ」や「ラブ×２」のような電子番組ガイド固有の言語表現の読みを生成し、また、番組タイトルの一部を省略した自由な発話を受け付けて音声認識することが可能になるため、電子番組ガイド固有の言語表現や、新出する言語表現に柔軟に対応できて、音声認識機能を十分に活用することができるようになる。

本発明の構成図である。本発明の実施例１における構成図である。本発明の番組案内画面の一例を示す図である。本発明の単語辞書の一例を示す図である。本発明の音声認識用辞書１０６の作成処理手順を示すフローチャートである。本発明の入力文「ダーツ＆ビリヤード入門」に対する単語リストの例を示す図である。本発明の選択された単語列候補の例を示す図である。本発明の音声入力による番組検索処理手順を示すフローチャートである。本発明の文法の照合処理の具体的処理手順を示すフローチャートである。本発明の文法とそれに対応する照合のＥＢＮＦ表現の例を示す図である。本発明の文法とそれに対応するキーワード生成処理の例を示す図である。

符号の説明

１アンテナ、２チューナ、３ＤＥＭＵＸ回路、４ＡＶデコーダ、５マルチプレクサ（合成回路）、６ＣＲＴ、７スピーカ、８ＯＳＤコントローラ、９システムコントローラ、１０ＲＯＭ、１１ＲＡＭ、１２不揮発性メモリ、１３マイク、１４リモコン、１０１形態素解析、１０２単語辞書、１０３キーワード生成、１０４キーワード生成知識、１０５音声認識用辞書生成、１０６音声認識用辞書、１０７音声入力、１０８音声認識、１０９検索、２０１単語リストの例、２０２単語候補の例。

Claims

検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、前記形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照し、前記言語特徴が適合する前記形態素列の表現に対して、言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を前記音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された前記単語に基づいて検索する検索手段と、を備えていることを特徴とする音声検索装置。
前記キーワード生成知識は、特定の言語特徴を抽出する照合パタンと、照合パタンに対応するキーワード生成処理とを対応付けて文法として保持し、前記キーワード生成手段は、キーワード生成知識の前記文法に従って、新規のキーワードを生成することを特徴とする請求項１に記載の音声検索装置。
前記キーワード生成知識は、読みが確定していない単語の読みを一意に決定する文法を保持することを特徴とする請求項１または請求項２に記載の音声検索装置。
前記キーワード生成処理は、前記形態素列から、前記文法に適合する複数の単語の組を抽出し、新規なキーワードを生成することを特徴とする請求項１から請求項３のいずれかに記載の音声検索装置。
前記検索手段は検索結果に含まれるキーワード数に応じて、表示する情報にスコアを与えて優先順位を付けて表示することを特徴とする請求項１から請求項４のいずれかに記載の音声検索装置。
前記検索手段は検索結果に含まれるキーワードの表示様態を変更して表示することを特徴とする請求項１から請求項５のいずれかに記載の音声検索装置。
コンピュータを、検索対象テキストを形態素解析し、単語に分割された形態素列として出力する形態素解析手段と、前記形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照し、前記言語特徴が適合する前記形態素列の表現に対して、言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成するキーワード生成手段と、前記生成されたキーワードで検索可能な音声認識用辞書を生成する音声認識用辞書生成手段と、検索するための単語をユーザに音声として入力させるための音声入力手段と、入力された音声に対応する単語を前記音声認識用辞書に基づいて認識して出力する音声認識手段と、認識された前記単語に基づいて検索する検索手段と、して機能させるための音声検索プログラム。
検索対象テキストを形態素解析し、単語に分割された形態素列を解析するために、特定の言語表現を定義する言語特徴と、対応するキーワード生成処理とを定義したキーワード生成知識を参照して、前記言語特徴が適合する前記形態素列の表現に対して、前記言語特徴に対応する前記キーワード生成処理を実行して新規のキーワードを生成した後、前記生成されたキーワードで検索可能な音声認識用辞書を生成し、検索するための単語をユーザに音声として入力させて、入力された音声に対応する単語を前記生成された音声認識用辞書に基づいて認識して出力し、認識して出力された前記単語に基づいて検索することを特徴とする音声検索方法。