JP2005099741A - 音声辞書作成装置、音声辞書作成方法、及びプログラム - Google Patents

音声辞書作成装置、音声辞書作成方法、及びプログラム Download PDF

Info

Publication number
JP2005099741A
JP2005099741A JP2004222876A JP2004222876A JP2005099741A JP 2005099741 A JP2005099741 A JP 2005099741A JP 2004222876 A JP2004222876 A JP 2004222876A JP 2004222876 A JP2004222876 A JP 2004222876A JP 2005099741 A JP2005099741 A JP 2005099741A
Authority
JP
Japan
Prior art keywords
data
character string
storage unit
url
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004222876A
Other languages
English (en)
Other versions
JP4515186B2 (ja
Inventor
Masahiro Michiwaki
正浩 道脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GF KK
Original Assignee
GF KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GF KK filed Critical GF KK
Priority to JP2004222876A priority Critical patent/JP4515186B2/ja
Publication of JP2005099741A publication Critical patent/JP2005099741A/ja
Application granted granted Critical
Publication of JP4515186B2 publication Critical patent/JP4515186B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】実用に耐え得る音声辞書を効率的に作成する。
【解決手段】音声辞書作成装置は、インターネット網に接続された読込処理部があり、読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込んで、そのデータを文字列抽出部に受け渡し、文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡し、音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度の調整や未知語の追加等の処理を行って音声辞書を作成する。
【選択図】 図1

Description

この発明は、音声を認識して文字列に変換する際に用いられる音声辞書データを作成する音声辞書作成装置、音声辞書作成方法、及びプログラムに関する。
音声認識装置は、その一部または別個に音声辞書作成装置とともに用いられる。これは、たとえば用途によって、同じ「こうかい」という発音でも「公開」「後悔」「航海」などがあり、日本語の係り受けを使っても「こうかい−する」でいずれも成立することから、使用者側がどの用例を使うか指定してやらないと音声認識した結果の文字が、意図したものが得られないからである。このような音声辞書があらかじめ準備されている場合もあるが、それでも使用者側で優先順位(選択順序)などを調整してやらないと望む結果が得がたいので、やはり音声辞書を操作する必要が生じる。また、そもそも音声認識装置にとって既知でない単語である「未知語」が含まれていると、音声認識に支障を生じるため、そのような未知語を音声辞書作成装置で追加して音声認識装置の認識率を高めるのである。
このような音声辞書作成を行う場合、従来はひとつひとつの単語を、人間が辞書登録を行っており、実用に耐える辞書を作成するのには多くの工数を必要とした。また、あらかじめ準備された辞書を用いる場合でも、用途によって認識される単語の優先順位が異なるために、使用者による試行錯誤によって音声辞書を操作する手間が膨大に必要であった。また、大規模な長文を認識して効率を上げるような試みも行われていたが、用意する文章が必ずしも話者が意図したものに近似しているとは限らないので、やはり多く修正の工数が必要とされていた。
なお、音声認識により音声を文字列に変換する処理において、変換する文字列の候補が複数ある場合に、過去に入力された文字列の履歴に基づいて複数の候補の中から適切な候補を選択する音声認識装置及び音声認識方法が特許文献1に開示されている。
特開2003−108189号公報
前述した通り、音声認識装置の使用者が音声を文字列に変換する際の優先順位をひとつひとつ登録することにより実用に耐え得る音声辞書を作成するには多くの工数が必要である。また、音声辞書作成装置があらかじめ備える音声辞書を用いる場合であっても、使用者の用途に応じて優先順位を調整するには膨大な手間がかかった。また、特許文献1に開示されている音声認識装置及び音声認識方法を用いる場合であっても、過去に入力された文字列の履歴が無ければ適切な文字列の候補を選択することができない。
本発明は前記課題に鑑み案出されたもので、インターネット接続手段がありインターネット接続手段を通じて提供されている文字入力可能なサイトに音声認識装置を使って文字入力を行いたいときに、短期間に実用に耐え得る音声辞書作成を可能にすることを目的とする。
インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込んで、そのデータを文字列抽出部に受け渡す。文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡す。音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり、未知語を追加するなどの処理を行って音声辞書を作成し音声認識装置の音声辞書を作成する。
従来は1件1件試行錯誤しながら人手によって音声辞書を作成していたが、本発明ではインターネット上から音声辞書を作成するためのデータを得ることとし、その範囲を、音声入力を行おうとするサイト、またそのリンク先、または使用者が特に関連が深いとして指定したサイトをデータ取得対象とする点が異なる。また、単に長文を音声辞書作成に使用するのではなく、その範囲を、音声入力を行おうとするサイト、またそのリンク先、または使用者が特に関連が深いとして指定したサイトをデータ取得対象とする点が異なる。
インターネットの性質を利用して、音声入力を行おうとするサイトそのもの又そのリンク先から音声辞書を作成する。また、以上でデータ量が不足である場合には使用者が任意に関連の深いと思われるサイトを読込処理部に追加することができる。このような手段により、効率的に音声辞書の作成を行う手段を提供する。
インターネット上に文字入力を受け付ける文字入力サイトが存在しており、インターネット網に接続されたインターネット接続装置がこの文字入力サイトに接続されており、インターネット接続装置に音声認識装置が付加されていて文字入力サイトに音声認識された文字を送信しようとするときに、インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込んで、そのデータを文字列抽出部に受け渡し、文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡し、音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり未知語を追加するなどの処理を行って音声辞書を作成して音声認識装置の音声辞書を作成し、この音声辞書を音声認識装置が用いることで効率的な音声認識処理による文字入力処理を行う。
本発明の音声辞書作成装置は、CPU、メモリ、及びインターネットに接続するための通信インタフェースと、前記メモリに設けられた記憶領域である、第一の音声辞書記憶部、第二の音声辞書記憶部、読込URL記憶部、及び出現頻度記憶部と、前記CPUが前記メモリに記憶されているプログラムを実行することにより実現される、読込処理部、文字列抽出部、及び音声辞書作成部と、を備え、前記第一の音声辞書記憶部には、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶され、前記読込URL記憶部には、WebページのURLが記憶され、前記読込処理部は、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、前記文字列抽出部は、前記読込処理部が取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記出現頻度記憶部に記憶し、前記音声辞書作成部は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記第二の音声辞書記憶部に記憶することとする。
また、本発明のプログラムは、CPU、メモリ、及びインターネットに接続するための通信インタフェースと、前記メモリに設けられた記憶領域である、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、WebページのURLが記憶されている読込URL記憶部と、を備えるコンピュータに、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得する手順と、取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、を実行させるためのものである。
音声認識技術の発達に伴い、音声認識プログラムを用いて音声を文字列に変換することが行われている。例えば、営業日報等の文字入力が必要なWebページへの文字入力や、学術論文等の文書データの作成等において用いられている。このような音声認識プログラムでは、音声を文字列に変換するための音声辞書が用いられる。音声認識プログラムが初めから備える標準の音声辞書(以後、「標準辞書」と称する。本発明の「第一の音声辞書」に該当。)には、例えば、「こうかい」という読みに対して「後悔」や「公開」、「航海」等の文字列が、変換される優先順位とともに記憶されている。音声認識プログラムは、認識した音声に対応する文字列を標準辞書の優先順位に従って決定する。
したがって、音声認識プログラムの使用者は、音声が使用者の意図する文字に変換されるよう、標準辞書に設定されている優先順位を調整する必要がある。例えば、対象が海洋分野であれば「航海」の優先順位を上げる等の作業が必要となる。
本発明のプログラムは、音声認識プログラムとともにコンピュータ(音声辞書作成装置)にインストールされて用いられる。そして、このような音声辞書作成装置を用いれば、音声認識させて文字入力を行おうとしている分野に関連するサイトのWebページのURLを読込URL記憶部に記憶させておくだけで、そのWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書(以後、「ユーザ辞書」と称する。本発明の「第二の音声辞書」に該当。)を得ることができる。
なお、ユーザ辞書は、標準辞書とは別の新たな辞書として作成されることとしてもよいし、標準辞書を更新することにより作成されることとしてもよい。また、第一の音声辞書は、音声認識プログラムの標準辞書に限らず、文字列と読みが対応付けられているものであればよい。例えば、仮名漢字変換プログラムが備える仮名漢字変換用の辞書を第一の音声辞書として用いることも可能である。また、生成されたユーザ辞書は、音声認識における文字変換に限らず、仮名漢字変換においても使用可能である。
さらに、本発明のプログラムは、前記出現頻度記憶部に記憶されている前記文字列データのうち、前記第一の音声辞書記憶部に記憶されていない前記文字列データをディスプレイやプリンタ等の所定の出力装置に出力する手順と、前記コンピュータが備える所定の入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、を更に備え、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを取得する前記手順は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部または前記読みデータ記憶部から取得する手順であることとしてもよい。
取得したWebページ中に、標準辞書に登録されていない文字列(以後、「未登録語」と称する。)が存在する場合、その文字列の読みを登録する必要がある。そこで、音声辞書作成装置によって未登録語がディスプレイ等の出力装置に出力され、ユーザが未登録語の読みをキーボードやマイク等の入力装置から入力する。そして、音声辞書作成装置は、未登録語も含めて同音異義語の優先順位を設定したユーザ辞書を生成する。このように、未登録語が多く存在する新しい技術分野等においても、文字列の出現頻度に応じた優先順位が設定されたユーザ辞書を得ることができ、音声を意図した文字列に変換することができる確率を高めることができる。
また、本発明のプログラムは、Webページに対応する画像や文字列等をディスプレイに表示するソフトウェアであるWebブラウザがユーザから指定されたWebページのURLを記憶する記憶領域であるURL記憶部に記憶されている前記URLを取得する手順と、前記URL記憶部から取得した前記URLを前記読込URL記憶部に記憶する手順と、を更に備えることとしてもよい。
一般的に、Webブラウザは、ユーザからの指定により特定のWebページのURLを記憶しておく記憶部(以後、「URL記憶部」と称する。)を備えている。ユーザは、自分の業務や研究等に関連するWebページのURLを、このURL記憶部に登録しておくことが多い。そこで、このURL記憶部に記憶されているURLを本発明における読込URL記憶部に記憶することで、ユーザは音声辞書作成用に別途URLを登録することなく、業務や研究等に関連する分野のWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。
さらに、本発明のプログラムは、前記読込URL記憶部が記憶する複数の前記URLのうち、ユーザによって指定される前記URLを受け付ける手順を更に備え、前記URL記憶部に記憶されている前記URLを取得する前記手順は、前記URL記憶部に記憶されている前記URLのうち、ユーザによって指定される前記URLを前記URL記憶部から取得する手順であることとしてもよい。
URL記憶部には、多様な分野のWebページのURLが登録されている場合がある。そこで、ユーザは、URL記憶部に登録されているURLの中から、ユーザが文字入力を行おうとしている分野に合うWebページのURLを指定する。なお、ユーザがURL記憶部に分野ごとのフォルダを設けている場合は、そのフォルダを選択することで、そのフォルダの中に格納されている複数のURLが指定されるようにすることもできる。
このように、Webブラウザが備えるURL記憶部に多様な分野のWebページのURLが登録されている場合においても、ユーザが文字入力を行おうとしている分野に応じた優先順位が設定された音声辞書を得ることができる。また、ユーザがURLを分野別に整理してURL記憶部に登録しておくことにより、目的とする分野に応じた音声辞書を容易に得ることができる。
また、Webページに設定された他のWebページへのリンクを辿る階層数を示すリンク階層データが前記メモリに設けられた記憶領域であるリンク階層記憶部に記憶され、 前記読込URL記憶部に記憶されている前記URLで指定される前記Webページを取得する前記手順には、取得した前記Webページを構成しているデータに含まれている他のWebページへのリンクを示すURLであるリンク先URLを抽出して当該リンク先URLで指定される前記他のWebページを取得する処理を、前記リンク階層記憶部に記憶されている前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順が含まれていることとしてもよい。
Webページには、そのWebページに関連するWebページのリンクが設定されていることが多い。そこで、音声辞書作成装置は、読込URL記憶部に記憶されているURLが示すWebページを取得する際に、そのWebページに設定されたリンクを辿って別のWebページを取得する。ここで、リンクを無限に辿ると、あらゆる分野のWebページが取得されてしまい、目的とする分野に応じた音声辞書を作成することができない。逆に、リンクを辿る階層数を少なくすると、取得できる文字列数が限られ、実用的な音声辞書を作成することができない。そこで、ユーザが、リンクを辿る階層数をリンク階層記憶部に設定しておくことにより、ユーザが目的とする分野に応じた音声辞書を作成することができる。
さらに、前記リンク階層記憶部には、前記読込URL記憶部に記憶されている前記WebページのURLごとに前記リンク階層データが記憶され、前記他のWebページを取得する前記処理を、前記階層数に応じて繰り返し実行する前記手順は、前記他のWebページを取得する前記処理を、前記URL記憶部に記憶されている前記URLに対応する前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順であることとしてもよい。
読込URL記憶部に記憶されているURLが示すWebページの特性に応じて、リンクを辿る階層数を指定することができる。例えば、ある分野の用語集のWebページであるような場合、そのWebページには、ユーザが目的とする分野の文字列が多く含まれており、リンクを更に辿る必要がない場合がある。一方、例えば、ある分野の総合サイトの入口にあるWebページ(トップページ)であるような場合、そのWebページに設定されたリンクを辿ることにより、ユーザが目的とする分野の文字列を得ることができる。このように、読込URL記憶部に記憶されているURLが示すWebページごとに、リンクを辿る階層数を指定可能とすることで、目的とする分野に一段と合致した音声辞書を作成することができる。
また、本発明のプログラムが、Webページを表示するソフトウェアが備える表示するWebページのURLを入力するエリアに入力されたURLを取得し、取得した当該URLを前記読込URL記憶部に記憶する手順を更に備えることとしてもよい。
例えば、ユーザが音声認識を利用して文字入力を行おうとしているWebページが、営業日報の入力ページである場合、ユーザが入力しようとしている文字列は、そのWebページに含まれている過去の営業日報等に含まれていることが多い。このような場合、WebブラウザのURL入力エリアに入力されたURLを読込URL記憶部に記憶することにより、ユーザが文字入力を行おうとする際に、別途読込対象のURLを指定することなく、目的に応じた音声辞書を作成することができる。
1件1件試行錯誤を行って実用に耐え得る音声辞書を作成するよりも、効率的に実用に耐え得る音声辞書を作成することができる。また、適当な長文をもとに音声辞書を作成する手段は従来より存在していたが、インターネットの性質を利用してより高い精度で音声辞書の作成を行うことができる。さらに、迅速な音声辞書作成が行えることから、既存のサイトに対して音声認識機能を付加することが容易に行えるようになる。
このように、本発明によれば、実用に耐え得る音声辞書を効率的に作成する音声辞書作成装置、音声辞書作成方法、及びプログラムを提供することができる。
===第一の実施形態===
図1は本発明の実施例の構成図であり、インターネット上に文字入力を受け付ける文字入力サイトが存在しており、インターネット網に接続されたインターネット接続装置がこの文字入力サイトに接続されており、インターネット接続装置に音声認識装置が付加されていて文字入力サイトに音声認識された文字を送信できるようになっており、インターネット網に接続された読込処理部が文字入力を行おうとするサイトまたはそのサイトからリンクされたサイトまたはその他特に関連が深いとして使用者が指定したサイトを読み込み、そのデータを文字列抽出部に受け渡し、文字列抽出部は、受け渡されたデータを単語等の音声認識に使用する文字列として解析してその結果を音声辞書作成部に受け渡し、音声辞書作成部は文字列抽出部から受け渡されたデータに従って、単語の使用頻度を調整したり未知語を追加するなどの処理を行って音声辞書を作成して音声認識装置の音声辞書を作成することで効率的な音声認識による文字入力処理を行うものである。
一般に、音声入力を行おうとするときに問題になるのは、それぞれのサイトによって頻出語、業界用語、慣用句などの用例が異なることが原因である。しかし、これらの言葉はすでに音声入力を行おうとするサイト、またはそのリンク先のサイトにほとんど記述してあるものである。たとえば、船舶業界では「こうかい」は「航海」「公海」として用いられる例が多いはずであり「公開」「更改」などの用例は少なくなるはずである。そこで、「こうかいする」であれば「航海する」となり「公海する」はおかしいので、係り受けの解析から「航海する」が正しい音声認識である確率が高い者と判断できる。そして、インターネットの性質上、すでに文字入力しようとしているサイトまたはリンクされたサイトであれば、やはり船舶業界関連の内容が記述されているはずであり上記のような用例を容易に見出し得る。また、船舶業界で著名なサイトがあれば、そのようなサイトも音声辞書作成に有益であるから必要に応じてそのデータを取得すべきである。また、掲示板のようなサイトにおいては、書き込みしようとする者の前の書き込みを受けたかたちで内容の書き込みが行われるケースが多いはずであり、必然的に音声認識に必要な単語がすでに掲示板サイトに出現していると思われるのである。このようなインターネット自体が有する性質を利用して、読込処理部がインターネットからデータを取得することで結果的に効率的な音声辞書を作成することが可能になるのである。
===第二の実施形態===
==全体構成==
次に、本発明における第二の実施形態について説明する。図2は、第二の実施形態のネットワーク構成を示す図である。音声辞書作成装置1は、本発明における音声辞書作成プログラムを実行する装置であり、パーソナルコンピュータや音声認識に用いられる専用の装置等のコンピュータである。音声辞書作成装置1は、インターネットやイントラネット等のネットワーク2を介して複数のWebサーバ3a,3b,3cと通信することができる。
Webサーバ3aにはHTML(Hyper Text Markup Language)やXML(eXtensible Markup Language)等のマークアップ言語で記述されたデータであるWebページ4aが保存されている。そして、音声辞書作成装置1はHTTP(Hyper Text Transfer Protocol)に則ってネットワーク2を介してWebサーバ3aにアクセスすることで、Webページ4aを取得することができる。図3に、Webページ4aの一例を示す。Webページ4aには、“<HTML>”や“<TITLE>”等のタグや、Webブラウザに表示される文書である文書データ5等が含まれている。また、Webページ4aには、“<A HREF=”@@@”></A>”というタグを用いて他のWebページへのリンク6が設定されている。「@@@」の部分は、リンク先のWebページのURLを示すものである。
なお、Webブラウザとは、Webページを表示するソフトウェアである。図4は、Webページ4aを表示したWebブラウザ7を示す図である。Webブラウザ7は、表示するWebページのURLを入力するURL入力エリア8および文書データ5や画像データ等が表示される表示エリア9が設けられている。URL入力エリア8にWebページ4aのURLが入力されると、音声辞書作成装置1はWebサーバ3aからWebページ4aを取得し、Webページ4aに含まれる文書データ5等を表示エリア9に表示する。表示エリア9には、リンク6も表示されており、ユーザがリンク6をクリックすると、音声辞書作成装置1はリンク先のWebページを取得する。
このように、Webページに設定されたリンクを辿ることにより、複数のWebページを取得することができる。図2の例は、Webページ4aにはWebサーバ3bに保存されたWebページ4bへのリンクが設定され、Webページ4bにはWebサーバ3cに保存されたWebページ4cへのリンクが設定されていることを示している。
==ハードウェア構成==
図5は、音声辞書作成装置1のハードウェア構成を示す図である。音声辞書作成装置1は、CPU10、メモリ11、記憶装置12、記録媒体読取装置13、通信インタフェース14、入力装置15、出力装置16、及びマイク17を備えている。
CPU10は、音声辞書作成装置1の全体を制御するものであり、記憶装置12に記憶されているプログラムを順次メモリ11に格納し、メモリ11に記憶されているプログラムを実行することができる。記憶装置12は、ハードディスクドライブ等であり、プログラムやデータが記憶される。記録媒体読取装置13は、CD−ROM等の記録媒体18に記録されているプログラムを読みとり、記憶装置12に格納することができる。
通信インタフェース14は、ネットワーク2を介してWebサーバ3a,3b,3cとデータの送受信を行うためのインタフェースである。入力装置15は、ユーザからのデータ入力を受け付ける装置であり、例えば、キーボードやマウス等である。出力装置16は、CPU10の処理結果等を出力する装置であり、例えば、ディスプレイやプリンタ等である。マイク17はユーザの発話により発生する音声を取得する装置である。なお、入力装置15、出力装置16、及びマイク17は、音声辞書作成装置1と別体で構成され、ケーブル等を用いて音声辞書作成装置1と接続されることとしてもよい。
==機能構成==
図6は、音声辞書作成装置1が備える機能の構成を示す図である。音声辞書作成装置1は、音声認識機能部20、音声辞書作成機能部30、及び記憶部40を備えている。
音声認識機能部20は、音声辞書作成装置1のメモリ11に記憶されている音声認識プログラムをCPU10が実行することにより実現される、音声取得部21、音声認識部22、及び文字列変換部23を備えている。
また、音声辞書作成機能部30は、音声辞書作成装置1のメモリ11に記憶されている音声辞書作成プログラムをCPU10が実行することにより実現される、読込処理部31、文字列抽出部32、未登録語出力部33、読みデータ受付部34、音声辞書作成部35、及び入力URL取得部36を備えている。
そして、記憶部40は、メモリ11に設けられた記憶領域であり、標準辞書記憶部(本発明の「第一の音声辞書記憶部」に該当。)41、ユーザ辞書記憶部(本発明の「第二の音声辞書記憶部」に該当。)42、読込URL記憶部43、リンク階層記憶部44、出現頻度記憶部45、及び読みデータ記憶部46を含んでいる。
音声取得部21は、マイク17から入力された音声データを取得する。音声認識部22は、音声取得部21が取得した音声データによって示される文字を認識して文字データを生成する。文字列変換部23は、音声認識部22が生成した複数の文字データから平仮名の文字列を生成し、平仮名の文字列を漢字や片仮名等の文字列に変換する。
なお、文字列変換部23は、文字列を変換する際に、標準辞書記憶部41に記憶されている標準辞書またはユーザ辞書記憶部42に記憶されているユーザ辞書を用いることができる。標準辞書とは、音声認識プログラムをインストールした際等に作成される、基本となる音声辞書である。また、ユーザ辞書とは、ユーザが文字列の追加・変更や、平仮名の文字列に対応する漢字や片仮名の文字列の候補が複数ある場合に、漢字や片仮名の文字列の夫々が選択される順序(優先順位)の変更等を行うことができる音声辞書である。なお、標準辞書を上書き更新してユーザ辞書を生成することも可能である。
図7は、標準辞書記憶部41およびユーザ辞書記憶部42の構造を示す図である。標準辞書記憶部41およびユーザ辞書記憶部42には、文字列データ、読みデータ、及び優先順位データが対応付けられたデータである音声辞書データが記憶されている。文字列データには、漢字や片仮名の文字列が設定され、読みデータには、その文字列の読みを示す平仮名の文字列が設定されている。そして、優先順位データには、文字列変換部23が平仮名の文字列を漢字や片仮名の文字列に変換する際の優先順位を示すデータが設定されている。
図7に示す例では、「こうかい」という読みに対して「航海」、「公開」、「後悔」の優先順位が順に「1」、「2」、「3」となっている。この場合、文字列変換部23は、「こうかい」という平仮名の文字列を優先順位が最も高い「航海」という漢字の文字列に変換する。
読込処理部31は、読込URL記憶部43に記憶されているWebページのURLを取得し、当該URLが示すWebページをWebサーバから取得する。図8は、読込URL記憶部43の構造を示す図である。読込URL記憶部43には、ユーザによって指定されたWebページのURLが記憶されている。読込URL記憶部43に記憶されているURLは、一つであってもよいし、複数であってもよい。
また、読込処理部31は、取得したWebページに設定されているリンクを取得し、当該リンクに設定されたURLが示す他のWebページを取得する。このように、読込処理部31は、Webページに設定されたリンクを辿って複数のWebページを取得する。図9は、リンク階層記憶部44の構造を示す図である。リンク階層記憶部44には、読込URL記憶部43に記憶されているURLごとに、リンクを辿る階層数を示すデータであるリンク階層データが設定されている。なお、リンク階層記憶部44には、読込URL記憶部43に記憶されている全てのURLに共通のリンク階層データが一つだけ記憶されていることとしてもよい。
文字列抽出部32は、読込処理部31が取得したWebページを構成するデータからタグを除去して得られる文書データから、意味のある単位に分解した文字列データを抽出する。文書データから文字列データを抽出する方法としては、例えば、特開2000−259673号公報に開示されている単語分割方法を用いることができる。そして、文字列抽出部32は、文字列データごとの出現回数をカウントし、文字列データと出現回数を示すデータである出現頻度データとを対応付けて出現頻度記憶部45に記憶する。図10は、出現頻度記憶部45の構造を示す図である。
未登録語出力部33は、出現頻度記憶部45に記憶されている文字列データのうち、標準辞書に登録されていない文字列データをディスプレイ等の出力装置16に出力する。 読みデータ受付部34は、ユーザによって入力装置15やマイク17から入力される、出力装置16に出力された文字列データの読みを示す読みデータを受け付け、当該文字列データと当該読みデータとを対応付けて読みデータ記憶部46に記憶する。図11は、読みデータ記憶部46の構造を示す図である。
音声辞書作成部35は、出現頻度記憶部45に記憶されている文字列データに対応する読みデータを、標準辞書記憶部41または読みデータ記憶部46から取得し、読みデータが同一の文字列データの夫々について、出現頻度データに基づいて優先順位を決定する。つまり、音声辞書作成部35は、読みデータが同一の文字列データに対して、出現回数が多い順に高い優先順位を設定する。そして、音声辞書作成部35は、文字列データ、読みデータ、及び湯煎順位を示すデータである優先順位データを対応付けて音声辞書データを生成し、当該音声辞書データをユーザ辞書記憶部42に記憶する。
入力URL取得部36は、Webブラウザ7のURL入力エリア8に入力されたURLを取得し、当該URLを読込URL記憶部43に記憶する。つまり、入力URL取得部36は、ユーザがWebブラウザ7に表示させようとしているWebページに基づいて文字列の優先順位を設定する場合に用いられる。
==音声辞書作成処理==
次に、音声辞書作成装置1における音声辞書作成処理について説明する。図12は、音声辞書作成処理のフローチャートである。まず、読込処理部31が、読込URL記憶部43に記憶されているURLを一つ取得する(S1201)。さらに、読込処理部31は、当該URLに対応するリンク階層データをリンク階層記憶部44から取得し(S1202)、リンク階層をカウントするための作業用のデータである作業階層データに0を設定する(S1203)。
続いて、読込処理部31は、取得したURLが示すWebページをWebサーバ3a,3b,3cから取得する(S1204)。そして、読込処理部31は作業階層データがリンク階層データと等しいかどうか確認する(S1205)。
作業階層データがリンク階層データと等しくない場合(S1205:No)、読込処理部31は、取得したWebページを構成するデータに含まれるリンク先URLを取得し(S1206)、当該リンク先URLが示すWebページを取得する(S1207)。そして、読込処理部31は、作業階層データに1加算し(S1208)、作業階層データとリンク階層データが等しいかどうか確認するステップ(S1205)に戻る。つまり、読込処理部31は、S1205〜S1208の処理を繰り返すことによって、読込URL記憶部43に記憶されているURLが示すWebページからリンク階層データによって示されるリンク階層の範囲内にあるWebページを取得する。
作業階層データがリンク階層データと等しくなると(S1205:Yes)、読込処理部31は、読込URL記憶部43に未取得のURLがあるかどうか確認する(S1209)。未取得のURLがある間(S1209:Yes)、読込処理部31は、未取得のURLを一つ取得し、Webページを取得する一連の処理(S1201〜S1208)を繰り返し実行する。
読込処理部31によって読込URL記憶部のURLが全て取得されると(S1209:No)、文字列抽出部32は、読込処理部31が取得したWebページを構成するデータに含まれる文字列データを抽出する(S1210)。そして、文字列抽出部32は、抽出した文字列データごとの出現回数をカウントし、文字列データと出現回数を示す出現頻度データとを対応付けて出現頻度記憶部45に記憶する(S1211)。
続いて、未登録語出力部33は、出現頻度記憶部45に記憶されている文字列データのうち、標準辞書記憶部41に記憶されていない文字列データを抽出し、当該文字列データをディスプレイ等の出力装置16に出力する(S1212)。そして、読みデータ受付部34は、ユーザによってキーボード等の入力装置15やマイク17から入力される当該文字列データに対する読みデータを受け付け、当該文字列データと当該読みデータとを対応付けて読みデータ記憶部46に記憶する(S1213)。
次に、音声辞書作成部35は、出現頻度記憶部45に記憶されている文字列データに対応する読みデータを標準辞書記憶部41または読みデータ記憶部46から取得する(S1214)。そして、音声辞書作成部35は、読みデータが同じ複数の文字列データに対する優先順位を出現頻度記憶部45に記憶されている出現頻度データに基づいて決定する(S1215)。最後に、音声辞書作成部35は、文字列データ、読みデータ、及び優先順位を示すデータである優先順位データを対応付けて音声辞書データを生成し、当該音声辞書データをユーザ辞書記憶部42に記憶する(S1216)。
ここで、出現頻度データに基づいて優先順位を決定する方法の例を説明する。図13は、優先順位を決定する方法の第一の例を示す図である。まず、音声辞書作成部35は、出現頻度記憶部45に記憶されている出現頻度データの降順に各文字列データの優先順位を設定した音声辞書データをユーザ辞書記憶部42に記憶する(S1301)。そして、音声辞書作成部35は、標準辞書記憶部41に記憶されている文字列データのうち、出現頻度記憶部45に存在しない文字列データについて、S1301で記憶された文字列データよりも後の優先順位を設定して、ユーザ辞書記憶部42に記憶する(S1302)。
また、図14は、優先順位を決定する方法の第二の例を示す図である。まず、音声辞書作成部35は、標準辞書記憶部41に記憶されている文字列データの優先順位を、出現頻度記憶部45に記憶されている出現回数分上昇させた音声辞書データをユーザ辞書記憶部42に記憶する(S1401)。図14の例では、「航海」の出現回数は2回であるため、標準辞書の「航海」の優先順位は「3」から「2」上昇し、「1」となる。これに伴い、「後悔」および「公開」の優先順位は1ずつ下げられる。
次に、音声辞書作成部35は、未登録語に最も低い優先順位を設定した音声辞書データをユーザ辞書記憶部42に記憶する(S1402)。図14の例では、未登録語の「公海」に最も低い優先順位「4」が設定され、ユーザ辞書に追加されている。そして、音声辞書作成部35は、追加した未登録語の優先順位を出現頻度記憶部45に記憶されている出現回数分上昇させる(S1403)。図14の例では、「公海」の出現回数は1回であるため、「公海」の優先順位は「4」から「1」上昇し、「3」となる。そして、「公開」の優先順位が「3」から「4」に下げられる。
図13および図14に例示したように、音声辞書作成部35は、読みデータが同一の複数の文字列データの夫々に対する優先順位データを出現頻度記憶部45に記憶されている出現頻度データに基づいて生成し、文字列データ、読みデータ、及び優先順位データを対応付けた音声辞書データをユーザ辞書記憶部42に記憶することができる。
==WebブラウザのURL記憶部を利用==
次に、Webブラウザ7が備えるURLの記憶部を読込対象のURLとして用いる場合について説明する。図15は、Webブラウザ7の登録URLメニュー50を表示した図である。ユーザは、自分の気に入ったWebページがあった場合、そのWebページがWebブラウザ7に表示されている際に、登録URLメニュー50で追加ボタン51を選択する。すると、そのWebページのタイトル52が登録URLメニュー50の中に追加される。また、ユーザは登録URLメニュー50の中にフォルダ53を作成し、そのフォルダ53の中にWebページのタイトル54を追加することもできる。
図16は、ユーザが登録URLメニュー50を用いて登録したWebページのURLを記憶しているURL記憶部55の構造を示す図である。URL記憶部55は、メモリ11に設けられた記憶領域である。URL記憶部55には、フォルダ53、Webページのタイトル52,54、及びWebページのURLが対応付けられて記憶されている。
読込処理部31は、このURL記憶部55に記憶されているURLを取得し、読込URL記憶部43に記憶することができる。また、読込処理部31は、ユーザによって指定される登録URLメニュー50に登録されたWebページのタイトル52,54やフォルダ53を受け付け、そのタイトル52,54やフォルダ53に対応するURLを読込URL記憶部43に記憶することも可能である。
==Webブラウザで入力されたURLを利用==
次に、Webブラウザ7のURL入力エリア8に入力されたURLを読込対象のURLとして用いる場合について説明する。図17は、入力URL取得部36の処理を示すフローチャートである。まず、入力URL取得部36は、ユーザがURL入力エリア8に入力したURLを取得する(S1701)。そして、入力URL取得部36は、取得したURLを読込URL記憶部43に記憶し(S1702)、図12に示した音声辞書作成処理を起動する(S1703)。これにより、URL入力エリア8に入力されたURLが示すWebページ及び当該Webページに設定されたリンクを辿って取得される他のWebページをもとに、ユーザ辞書が生成される。
以上、音声辞書作成プログラムを実行する音声辞書作成装置1の動作について説明した。前述したように、本発明の音声辞書作成プログラムがインストールされた音声辞書作成装置1を用いれば、音声認識させて文字入力を行おうとしている分野に関連するサイトのWebページのURLを読込URL記憶部43に記憶させておくだけで、そのWebページにおける文字列の出現頻度に応じた優先順位が設定されたユーザ辞書を得ることができる。なお、生成されたユーザ辞書は、音声認識における文字変換に限らず、仮名漢字変換における文字変換においても使用可能である。
また、音声辞書作成装置1は未登録語をディスプレイ等の出力装置16に出力する。そして、ユーザが未登録語の読みをキーボードやマイク等の入力装置から入力する。音声辞書作成装置1は、未登録語も含めて同音異義語の優先順位を設定したユーザ辞書を生成する。このように、未登録語が存在する場合においても、文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。
また、音声辞書作成装置1は、ユーザがWebブラウザ7の登録URLメニュー50から登録したURLが記憶されているURL記憶部55からURLを取得して読込URL記憶部43に記憶することもできる。ユーザは、自分の業務や研究等に関連するWebページのURLを、このURL記憶部55に登録しておくことが多い。そこで、このURL記憶部55に記憶されているURLを読込URL記憶部に記憶することで、ユーザは音声辞書作成用に別途URLを登録することなく、業務や研究等に関連する分野のWebページにおける文字列の出現頻度に応じた優先順位が設定された音声辞書を得ることができる。
この場合、URL記憶部55には、多様な分野のWebページのURLが登録されている場合がある。そこで、音声辞書作成装置1は、URL記憶部55に登録されているURLの中から、ユーザによって指定されたURLのみを読込URL記憶部43に記憶することができる。なお、ユーザは、URL記憶部55に分野ごとのフォルダを設けている場合は、そのフォルダを選択することにより、そのフォルダの中に格納されている複数のURLを指定することができる。
このように、Webブラウザが備えるURL記憶部55に多様な分野のWebページのURLが登録されている場合においても、ユーザが文字入力を行おうとしている分野に応じた優先順位が設定された音声辞書を得ることができる。また、ユーザがURLを分野別に整理してURL記憶部55に登録しておくことにより、目的とする分野に応じた音声辞書を容易に得ることができる。
また、Webページの特徴として、Webページには関連する他のWebページへのリンクが設定されていることが多い。そこで、音声辞書作成装置1は、読込URL記憶部43に記憶されているURLが示すWebページを取得する際に、そのWebページに設定されたリンクを辿って他のWebページを取得する。ここで、リンクを無限に辿ると、あらゆる分野のWebページが取得されてしまい、目的とする分野に応じた音声辞書を作成することができない。逆に、リンクを辿る階層数を少なくすると、取得できる文字列数が限られ、実用的な音声辞書を作成することができない。そこで、ユーザが、リンクを辿る階層数をリンク階層記憶部44に設定しておくことにより、ユーザが目的とする分野に応じた音声辞書を作成することができる。
この場合、読込URL記憶部43に記憶されているURLが示すWebページの特性に応じて、リンクを辿る階層数を指定することも可能である。例えば、Webページがある分野の用語集のWebページであるような場合、そのWebページには、ユーザが目的とする分野の文字列が多く含まれており、リンクを更に辿る必要がない場合がある。一方、例えば、ある分野の総合サイトの入口にあるWebページ(トップページ)であるような場合、そのWebページに設定されたリンクを辿ることにより、ユーザが目的とする分野の文字列を得ることができる。このように、読込URL記憶部43に記憶されているURLが示すWebページごとに、リンクを辿る階層数を指定可能とすることで、目的とする分野に一段と合致した音声辞書を作成することができる。
また、音声辞書作成装置1は、Webブラウザ7のURL入力エリア8に入力されたURLを取得して、取得した当該URLを読込URL記憶部43に記憶することもできる。例えば、ユーザが音声認識を利用して文字入力を行おうとしているWebページが、営業日報の入力ページである場合、ユーザが入力しようとしている文字列は、そのWebページに含まれている過去の営業日報等に含まれていることが多い。このような場合、Webブラウザ7のURL入力エリア8に入力されたURLを読込URL記憶部43に記憶することにより、ユーザが文字入力を行おうとする際に、別途読込対象のURLを指定することなく、目的に応じた音声辞書を作成することができる。
以上本発明の実施形態について説明したが、以上の実施形態の説明は本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれることは勿論である。
本発明の実施例の構成図である。 本発明の第二の実施形態におけるネットワーク構成を示す図である。 Webページの一例を示す図である。 Webページを表示したWebブラウザを示す図である。 音声辞書作成装置のハードウェア構成を示す図である。 音声辞書作成装置が備える機能の構成を示す図である。 標準辞書記憶部およびユーザ辞書記憶部の構造を示す図である。 読込URL記憶部の構造を示す図である。 リンク階層記憶部の構造を示す図である。 出現頻度記憶部の構造を示す図である。 読みデータ記憶部の構造を示す図である。 音声辞書作成処理のフローチャートである。 優先順位を決定する方法の第一の例を示す図である。 優先順位を決定する方法の第二の例を示す図である。 Webブラウザの登録URLメニューを表示した図である。 ユーザが登録URLメニューを用いて登録したWebページのURLを記憶しているURL記憶部の構造を示す図である。 入力URL取得部の処理を示すフローチャートである。
符号の説明
1 音声辞書作成装置 2 ネットワーク
3a,3b,3c Webサーバ 4a,4b,4c Webページ
5 文書データ 6 リンク
7 Webブラウザ 8 URL入力エリア
9 表示エリア 10 CPU
11 メモリ 12 記憶装置
13 記録媒体読取装置 14 通信インタフェース
15 入力装置 16 出力装置
17 マイク 18 記録媒体
20 音声認識機能部 21 音声取得部
22 音声認識部 23 文字列変換部
30 音声辞書作成機能部 31 読込処理部
32 文字列抽出部 33 未登録語出力部
34 読みデータ受付部 35 音声辞書作成部
36 入力URL取得部 40 記憶部
41 標準辞書記憶部 42 ユーザ辞書記憶部
43 読込URL記憶部 44 リンク階層記憶部
45 出現頻度記憶部 46 読みデータ記憶部
50 登録URLメニュー 51 追加ボタン
52,54 Webページのタイトル 53 フォルダ
55 URL記憶部

Claims (10)

  1. CPU、メモリ、及びインターネットに接続するための通信インタフェースと、
    前記メモリに設けられた記憶領域である、第一の音声辞書記憶部、第二の音声辞書記憶部、読込URL記憶部、及び出現頻度記憶部と、
    前記CPUが前記メモリに記憶されているプログラムを実行することにより実現される、読込処理部、文字列抽出部、及び音声辞書作成部と、
    を備え、
    前記第一の音声辞書記憶部には、単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶され、
    前記読込URL記憶部には、WebページのURLが記憶され、
    前記読込処理部は、前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、
    前記文字列抽出部は、
    前記読込処理部が取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、
    前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記出現頻度記憶部に記憶し、
    前記音声辞書作成部は、
    前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、
    取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、
    前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記第二の音声辞書記憶部に記憶すること、
    を特徴とする音声辞書作成装置。
  2. CPU、メモリ、及びインターネットに接続するための通信インタフェースと、
    前記メモリに設けられた記憶領域である、
    単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
    WebページのURLが記憶されている読込URL記憶部と、
    を備えるコンピュータに、
    前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、
    取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、
    前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、
    前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得する手順と、
    取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、
    前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、
    を実行させるためのプログラム。
  3. 請求項2に記載のプログラムであって、
    前記出現頻度記憶部に記憶されている前記文字列データのうち、前記第一の音声辞書記憶部に記憶されていない前記文字列データをディスプレイやプリンタ等の所定の出力装置に出力する手順と、
    前記コンピュータが備える所定の入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、
    を更に備え、
    前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを取得する前記手順は、前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部または前記読みデータ記憶部から取得する手順であること、
    を特徴とするプログラム。
  4. CPU、メモリ、入力装置、出力装置、及びインターネットに接続する通信インタフェースと、
    前記メモリに設けられた記憶領域である、
    単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
    WebページのURLが記憶されている読込URL記憶部と、
    を備えるコンピュータに、
    前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得する手順と、
    取得した前記Webページを構成しているデータに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求める手順と、
    前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶する手順と、
    抽出した前記文字列データを前記出力装置に出力する手順と、
    前記入力装置から入力される、前記出力装置に出力された前記文字列データによって表される文字列の読みを示す前記読みデータを受け付け、当該文字列データ及び当該読みデータを対応付けて前記メモリに設けられた記憶領域である読みデータ記憶部に記憶する手順と、
    前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記読みデータ記憶部から取得する手順と、
    取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記読みデータが同一の前記複数の前記文字列データのうちから選択される一の前記文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定する手順と、
    前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶する手順と、
    を実行させるためのプログラム。
  5. 請求項2又は4に記載のプログラムであって、
    Webページに対応する画像や文字列等をディスプレイに表示するソフトウェアであるWebブラウザがユーザから指定されたWebページのURLを記憶する記憶領域であるURL記憶部に記憶されている前記URLを取得する手順と、
    前記URL記憶部から取得した前記URLを前記読込URL記憶部に記憶する手順と、
    を更に備えることを特徴とするプログラム。
  6. 請求項5に記載の音声辞書作成プログラムであって、
    前記読込URL記憶部が記憶する複数の前記URLのうち、ユーザによって指定される前記URLを受け付ける手順を更に備え、
    前記URL記憶部に記憶されている前記URLを取得する前記手順は、前記URL記憶部に記憶されている前記URLのうち、ユーザによって指定される前記URLを前記URL記憶部から取得する手順であること、
    を特徴とするプログラム。
  7. 請求項2又は4に記載のプログラムであって、
    Webページに設定された他のWebページへのリンクを辿る階層数を示すリンク階層データが前記メモリに設けられた記憶領域であるリンク階層記憶部に記憶され、
    前記読込URL記憶部に記憶されている前記URLで指定される前記Webページを取得する前記手順には、
    取得した前記Webページを構成しているデータに含まれている他のWebページへのリンクを示すURLであるリンク先URLを抽出して当該リンク先URLで指定される前記他のWebページを取得する処理を、前記リンク階層記憶部に記憶されている前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順が含まれていること、
    を特徴とするプログラム。
  8. 請求項7に記載のプログラムであって、
    前記リンク階層記憶部には、前記読込URL記憶部に記憶されている前記WebページのURLごとに前記リンク階層データが記憶され、
    前記他のWebページを取得する前記処理を、前記階層数に応じて繰り返し実行する前記手順は、前記他のWebページを取得する前記処理を、前記URL記憶部に記憶されている前記URLに対応する前記リンク階層データによって示される前記階層数に応じて繰り返し実行する手順であること、
    を特徴とするプログラム。
  9. 請求項2又は4に記載のプログラムであって、
    Webページを表示するソフトウェアが備える表示するWebページのURLを入力するエリアに入力されたURLを取得し、取得した当該URLを前記読込URL記憶部に記憶する手順を更に備えることを特徴とするプログラム。
  10. CPU、メモリ、及びインターネットに接続する通信インタフェースと、
    前記メモリに設けられた記憶領域である、
    単語等の文字列を示す文字列データと、当該文字列の読みを示す読みデータとが対応付けて記憶されている第一の音声辞書記憶部と、
    WebページのURLが記憶されている読込URL記憶部と、
    を備えるコンピュータが、
    前記読込URL記憶部に記憶されている前記URLで指定されるWebページを、インターネット上のWebサーバにアクセスすることにより取得し、
    取得した前記Webページに含まれている前記文字列データを抽出して前記文字列データごとの出現頻度を求め、
    前記文字列データ及び前記出現頻度を示すデータである出現頻度データを対応付けて前記メモリに設けられた記憶領域である出現頻度記憶部に記憶し、
    前記出現頻度記憶部に記憶されている前記文字列データに対応する前記読みデータを前記第一の音声辞書記憶部から取得し、
    取得した前記読みデータが同一の複数の前記文字列データの夫々に対して、音声認識によって得られる前記読みデータを前記複数の前記文字列データのうちから選択される一の文字列データに変換する際の前記文字列データの選択順序を前記出現頻度データに基づいて決定し、
    前記文字列データ、前記読みデータ、及び前記選択順序を示すデータである選択順序データを対応付けて、音声を認識して文字列に変換する際に用いられるデータである音声辞書データを生成し、当該音声辞書データを前記メモリに設けられた記憶領域である第二の音声辞書記憶部に記憶すること、
    を特徴とする音声辞書作成方法。

JP2004222876A 2003-09-02 2004-07-30 音声辞書作成装置、音声辞書作成方法、及びプログラム Expired - Fee Related JP4515186B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004222876A JP4515186B2 (ja) 2003-09-02 2004-07-30 音声辞書作成装置、音声辞書作成方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003310299 2003-09-02
JP2004222876A JP4515186B2 (ja) 2003-09-02 2004-07-30 音声辞書作成装置、音声辞書作成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2005099741A true JP2005099741A (ja) 2005-04-14
JP4515186B2 JP4515186B2 (ja) 2010-07-28

Family

ID=34467521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004222876A Expired - Fee Related JP4515186B2 (ja) 2003-09-02 2004-07-30 音声辞書作成装置、音声辞書作成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP4515186B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2010041414A (ja) * 2008-08-05 2010-02-18 Kddi Corp 留守番電話装置
WO2011045846A1 (ja) * 2009-10-16 2011-04-21 三菱電機株式会社 音声認識装置
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP2015069334A (ja) * 2013-09-27 2015-04-13 富士通株式会社 文字変換プログラム、文字変換装置、及び文字変換方法
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002162986A (ja) * 2000-11-27 2002-06-07 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002207731A (ja) * 2001-01-12 2002-07-26 Logo Vista Corp 分野辞書作成装置
JP2002297177A (ja) * 2001-03-29 2002-10-11 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002162986A (ja) * 2000-11-27 2002-06-07 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002207731A (ja) * 2001-01-12 2002-07-26 Logo Vista Corp 分野辞書作成装置
JP2002297177A (ja) * 2001-03-29 2002-10-11 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2010041414A (ja) * 2008-08-05 2010-02-18 Kddi Corp 留守番電話装置
WO2011045846A1 (ja) * 2009-10-16 2011-04-21 三菱電機株式会社 音声認識装置
JP2015069334A (ja) * 2013-09-27 2015-04-13 富士通株式会社 文字変換プログラム、文字変換装置、及び文字変換方法
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム

Also Published As

Publication number Publication date
JP4515186B2 (ja) 2010-07-28

Similar Documents

Publication Publication Date Title
US7197462B2 (en) System and method for information access
TWI353585B (en) Computer-implemented method,apparatus, and compute
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US7962842B2 (en) Method and systems for accessing data by spelling discrimination letters of link names
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
KR100237385B1 (ko) 웹 브라우저 상의 음성 인식기 구현방법
CN100368960C (zh) 信息处理方法和设备
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP4738847B2 (ja) データ検索装置および方法
KR20120058544A (ko) 이미지 구성요소의 검색
Ghose et al. Architecture of a web browser for visually handicapped people
JP4515186B2 (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP2002197118A (ja) 情報アクセス方法、情報アクセスシステムおよび記録媒体
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
KR100916814B1 (ko) 태그 정보에 기초하여 텍스트를 추출하기 위한 방법,시스템 및 컴퓨터 판독 가능한 기록 매체
JP2009169113A (ja) 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP4014361B2 (ja) 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010117529A (ja) 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2007164732A (ja) コンピュータ実行可能なプログラム、および情報処理装置
KR102639463B1 (ko) 커먼 아이디정보의 매칭을 이용한 웹페이지 메모 공유방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100413

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100512

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees