JP2009169113A - 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム - Google Patents

言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム Download PDF

Info

Publication number
JP2009169113A
JP2009169113A JP2008007395A JP2008007395A JP2009169113A JP 2009169113 A JP2009169113 A JP 2009169113A JP 2008007395 A JP2008007395 A JP 2008007395A JP 2008007395 A JP2008007395 A JP 2008007395A JP 2009169113 A JP2009169113 A JP 2009169113A
Authority
JP
Japan
Prior art keywords
language
language model
web content
spoken
model creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008007395A
Other languages
English (en)
Inventor
Shuhei Maekawa
周平 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008007395A priority Critical patent/JP2009169113A/ja
Publication of JP2009169113A publication Critical patent/JP2009169113A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】充実した語彙で、適切にクラスタリングされ、かつ書き言葉と話し言葉のそれぞれに的確に対応する言語モデルを少ない労力で作成できる言語モデル作成装置を提供する。
【解決手段】本発明に係る言語モデル作成装置は、インターネットを通じて閲覧可能なウェブコンテンツを取得するウェブ情報取得手段70と、ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断手段305と、話し言葉判断手段の判断に基づいてウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成手段304とを有する。
【選択図】図2

Description

本発明は、音声認識の言語モデルの作成に関し、特にテキストデータからの言語モデルの作成に関する。
音声認識は一般的に、音声および言語の特徴を学習した言語モデルと、入力された音声信号とを照らし合わせながら、最も尤度の高い言語系列を認識結果として出力するものである。そのため、音声認識において認識率を向上させるには、多くの単語や語句を収録して充実した言語モデルを作成することが不可欠である。なお、ここでいう言語モデルが、コーパスと呼ばれる場合もある。
従来の音声認識、特に言語モデルの作成に係る技術として、以下に示す文献がある。特許文献1には、場合に応じて話し言葉および書き言葉などの複数の言語モデルを選択し、音声認識を行う技術が開示されている。特許文献2には、学習用テキストをクラスタリングしてクラスタ別の言語モデルを作成する技術の一例が開示されている。特許文献3には、放送番組の音声データと該番組の書き起こしテキストから言語モデルを作成する技術が開示されている。
特許文献4には、テキストデータとユーザごとの統計情報から、各々のユーザに適した言語モデルを作成する技術が開示されている。特許文献5には、ユーザごとに解析された情報からテキスト変換辞書を作成して言語モデルを作成する技術が開示されている。特許文献6には、ユーザがURLを指定した特定のウェブページからテキストを読み込んで言語モデルを作成する技術が開示されている。
特開2001−134285号公報 特開2002−91484号公報 特開2003−099086号公報 特開2003−255985号公報 特開2004−271615号公報 特開2005−099741号公報
前述の様に、言語モデルの作成においては、多くのテキストを収集してそこから多くの単語や語句を抽出して収録し、語彙を充実させることが必要である。特に、次々と生まれる新語もしくは流行語などについて、迅速に対応することが必要である。また、言語モデルが膨大になりすぎると音声認識の処理に時間がかかり、認識速度および認識率が低下する。そのため、言語モデルは、言語および分野などに基づいて適切にクラスタリングされたものである必要がある。
しかしながら、多くのテキストを得るためには、それだけ多くの労力を費やす。これに対して特許文献1〜5の技術には、テキスト情報から言語モデルを作成することについては示されていても、それらの言語モデル作成の元となるテキストを収集する方法については示されていない。特許文献6はユーザが指定したウェブページからテキストを読み込んでいるが、ユーザが指定した以外のウェブページ以外からテキストを読み込んでいないので、新語などへの迅速な対応という効果は期待できない。
また、同じ音声認識でも、書き言葉を音読して認識する場合と、話し言葉を認識する場合とでは、必要とされる言語モデルは大きく異なる。しかしながら、特許文献3の技術では話し言葉に特化した言語モデルは作成できるが、音読された書き言葉に対する言語モデルを作成するものではない。その他の特許文献1〜2および4〜6の技術においても、書き言葉と話し言葉のそれぞれに対応する言語モデルを作成できる構成は記載されていない。
本発明の目的は、充実した語彙で、適切にクラスタリングされ、かつ書き言葉と話し言葉のそれぞれに的確に対応する言語モデルを少ない労力で作成できる言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラムを提供することにある。
上記目的を達成するため、本発明に係る言語モデル作成装置は、インターネットを通じて閲覧可能なウェブコンテンツを取得するウェブ情報取得手段と、ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断手段と、話し言葉判断手段の判断に基づいてウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成手段とを有することを特徴とする。
上記目的を達成するため、本発明に係る言語モデル作成方法は、言語モデル作成装置が言語モデルを作成する方法であって、インターネットを通じて閲覧可能なウェブコンテンツを取得するウェブ情報取得工程と、ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断工程と、話し言葉判断工程の判断に基づいてウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成工程とを有することを特徴とする。
上記目的を達成するため、本発明に係る言語モデル作成プログラムは、言語モデル作成装置を構成するコンピュータに、インターネットを通じて閲覧可能なウェブコンテンツを取得する処理と、ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断処理と、話し言葉判断処理の判断に基づいてウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成処理とを有することを特徴とする。
本発明は、上記したように収集されたウェブコンテンツから、話し言葉認識もしくは書き言葉認識のいずれかを決定してから、その決定に対応する言語モデルを作成するように構成したので、テキストの収集に労力を費やす必要はない。これによって、充実した語彙で、適切にクラスタリングされ、かつ書き言葉と話し言葉のそれぞれに的確に対応する言語モデルを少ない労力で作成できるという、従来にない優れ言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラムを提供することができる。
図1は、本発明の実施の形態に係るネットワーク1の構成を示す概念図である。ネットワーク1では、ウェブサーバ50と、ウェブ情報収集サーバ70と、音声認識管理サーバ20と、言語モデル作成サーバ30と、ウェブサイト利用者用端末60と、音声認識利用者用端末10とが、インターネット40を介して相互に接続される。なお、ウェブサーバ50、ウェブサイト利用者用端末60、および音声認識利用者用端末10は、各々インターネット40に多数接続されているが、ここでは紙面の都合で各2つずつを図示している。
ウェブサーバ50は、ウェブサイト利用者用端末60によって作成されたウェブコンテンツが登録され、インターネット40を通じて全世界から閲覧可能としている。ウェブ情報収集サーバ70は、それらのウェブコンテンツを取得する。言語モデル作成サーバ30は、取得されたウェブコンテンツを、辞書データとして分野ごとに分類し、言語モデルを作成する。音声認識管理サーバ20は、作成された言語モデルに基づいて、音声認識利用者用端末10に各々接続されたマイクからの音声に対して音声認識の処理を行う。
なお、ここでは、言語モデル作成サーバ30とウェブ情報収集サーバ70とを合わせて、言語モデル作成装置2としている。
図2は、図1で示した音声認識利用者用端末10と、音声認識管理サーバ20と、言語モデル作成装置2(言語モデル作成サーバ30、ウェブ情報収集サーバ70)の各々の構成を示すブロック図である。音声認識利用者用端末10と、音声認識管理サーバ20と、言語モデル作成サーバ30と、ウェブ情報収集サーバ70は、それぞれ物理的に別々のコンピュータであってもよいし、また1台のコンピュータでそれらのうち複数の機能を兼ねるようにしてもよい。
音声認識利用者用端末10は、音声入力手段101と、認識結果表示手段102を含む。音声認識管理サーバ20は、音声認識手段201を含む。言語モデル作成サーバ30は、話し言葉情報データベース301と、分野情報データベース302と、国・言語情報データベース303と、言語モデル作成手段304と、話し言葉判断手段305と、辞書情報選択手段306と、言語モデルデータベース307と、頻度確認手段308を含む。ウェブ情報収集サーバ70は、ウェブ情報取得手段701と、ウェブ情報データベース702を含む。
ウェブ情報取得手段701は、ウェブサーバ50において公開されているウェブコンテンツを収集し、記事情報としてウェブ情報データベース702に保存する。辞書情報選択手段306は、ウェブ情報データベース702に格納された記事情報を読み込み、国・言語情報データベース303、分野情報データベース302を検索し、国・言語別、分野別に辞書情報を分類する。
ここで、ウェブ情報取得手段701は、公知のウェブ巡回プログラム、いわゆるクローラの技術を適用し、ある特定のウェブページ上のハイパーリンク(以後単にリンクという)を辿って別のウェブページに移動し、移動した先のページからもリンクを辿ってさらに別のウェブページに移動し…といった動作を繰り返すという手法で、多数のウェブページを巡回しては、それらのウェブページに記載されるウェブコンテンツを収集してウェブ情報データベース702に保存する。これによって、多数のウェブコンテンツを無作為に収集することができる。
頻度確認手段308は、辞書情報の中から辞書として不適切な文面を頻度情報(図示せず)によって除去する。ここでいう「辞書として不適切な文面」とは、たとえば間投詞(「はいはい」「えーと」など)や感嘆語(「おお」「あー」など)のように、会話としては必要であっても、辞書としては意味をなさない言葉をいう。これらの言葉は言語モデルを作成する上では不要であるので、頻度確認手段308によって除去される。
話し言葉判断手段305は、話し言葉情報データベース301を検索して辞書情報と比較することによって、該辞書情報が話し言葉であるか書き言葉であるかを判断する。話し言葉情報データベース301は、書き言葉にはない話し言葉に特有の単語もしくは文法などの特徴(以後これを話し言葉情報という)について記憶しているデータベースである。辞書情報が話し言葉情報を含んでいれば、該辞書情報が話し言葉であると判断される。
話し言葉であると判断された場合、言語モデル作成手段304は該辞書情報から話し言葉認識の言語モデル307aを生成し、言語モデルデータベース307に登録する。書き言葉であると判断した場合、言語モデル作成手段304は該辞書情報から書き言葉認識の言語モデル307bを生成し、言語モデルデータベース307に登録する。
音声認識手段201は、言語モデルデータベース307からネットワークを介して言語モデルを受信し、音声入力手段101で入力された音声データと照合して音声認識の処理を行う。認識結果表示手段102は、音声認識手段201が音声認識の結果として出力するテキストデータを表示する。
図3は、図1で示したネットワーク1における言語モデル作成と音声認識の流れを示すシーケンス図である。図4は、図2で示した話し言葉判断手段305の動作を示すアクティビティ図である。図5は、図2で示した辞書情報選択手段306の動作を示すアクティビティ図である。これらのシーケンス図およびアクティビティ図で表される各々のステップは、言語モデル作成サーバ30、ウェブ情報収集サーバ70、および音声認識管理サーバ20を構成するコンピュータ装置で実行されるプログラムとして実現することができる。
ウェブサイト利用者用端末60から、ウェブサーバ50にウェブコンテンツが登録される。その際、該ウェブコンテンツが書き言葉で記載されていることもあれば、くだけた表現の話し言葉で記載されていることもある。ウェブ情報収集サーバ70は、それらのウェブコンテンツをウェブサーバ50からURL別に収集する(図3ステップS1000〜1100)。
音声認識管理サーバ20は、一定期間ごとにウェブ情報収集サーバ70で収集されたウェブコンテンツを、辞書情報として取得する。言語モデル作成サーバ30は、取得された辞書情報を元に、言語モデル生成サービスは辞書作成を実施する(図3ステップS2000)。
辞書情報選択手段306は、取得された辞書情報に対して言語情報検索(図3ステップS2010)および分野情報検索(ステップS2020)を行う。その詳細が図5にアクティビティ図として示されている。なお、言語情報検索(ステップS2010)は、図5のステップS3061〜3065に該当する。分野情報検索(ステップS2020)は、図5のステップS3066〜3070に該当する。
まず、辞書情報選択手段306は辞書情報を読み込み(ステップS3061)、読み込んだ辞書情報がどの国もしくは言語に属するかを判断し、それによって国・言語情報を得る(ステップS3062)。通常は、ウェブコンテンツ取得元のURLに含まれる文字列を、国・言語情報データベース303に保存されている文字データと照合して判断することによって、国・言語情報を得ることができる。国・言語情報が得られた場合、ステップS3066に進む。
ステップS3062で国・言語情報が得られなかった場合、辞書情報選択手段306は辞書情報に付帯する情報(以後辞書付帯情報という)を読み込む(ステップS3063)。辞書付帯情報とは、たとえば図7に示すようにHTMLタグなどがある。
図6〜7は、図5で示す処理における、国・言語情報および分野情報の取得と判断の例を示す概念図である。図6はURLからの情報の取得、図7はHTMLからの情報の取得である。
ステップS3062で、たとえば図6に示す1〜3番目のURLのドメイン末尾4001が「.jp」で終わるものは日本語、「.uk」で終わるものは英語、「.kr」で終わるものは韓国語のウェブコンテンツである可能性が高いと判断することができる。図6の4番目のURLのドメイン末尾は「.com」であるので、これだけでは言語を特定できないが、「lang=en-us」(米国英語)などのように、URL内に言語を示す文字列4005が含まれていればそれを判断対象とすることができる。国・言語情報データベース303には、それらの判断の根拠となりうる文字列とそのパターンがあらかじめ記憶されている。
また、ステップS3063で、図7に示すHTMLタグのメタ情報(meta)に含まれる文字コード宣言4003(charset)が「Shift_Jis」「EUC-JP」などであれば日本語、「ISO-8859-1」などであれば英語、「GB2312」などであれば簡体字中国語であるというように判断できる。
辞書情報選択手段306は、これらのような辞書付帯情報から辞書情報の国・言語を決定し(ステップS3064)、辞書情報の文字データと判断された国・言語の種類とを国・言語情報データベース303を更新して(ステップS3064)、ステップS3066に進む。
続いて辞書情報選択手段306は、辞書情報から分野情報を読み込む(ステップS3066)。通常は、辞書情報であるウェブコンテンツに含まれる単語を、分野情報データベース302に保存されている単語データと照合して判断することによって、分野情報を得ることができる。辞書情報から分野情報が得られた場合、ステップS3070に進む。
ステップS3066で分野情報が得られなかった場合、辞書情報選択手段306は辞書付帯情報を読み込む(ステップS3067)。たとえば図6に示すURLのサブディレクトリ名4002に含まれる「marketing」「technology」「entertainment」などのような単語から、それぞれ「マーケティング」「技術」「娯楽」などに関する分野であると判断できる。また図7に示すHTMLタグのリンクタグ4004の「システム構成」「ダウンロード」などの文字から、リンク先のページの内容の概要を判断することもできる。分野情報データベース302には、それらの判断の根拠となりうる文字列とそのパターンがあらかじめ記憶されている。
辞書情報選択手段306は、これらのような辞書付帯情報から辞書情報の内容の属する分野を決定し(ステップS3068)、辞書情報の文字データと判断された分野の種類とを分野情報データベース302を更新して(ステップS3069)、ステップS3070に進む。最後に、ここまでで特定された国・言語および分野においてクラスタリングされた情報として、辞書情報を話し言葉判断手段305の処理に渡す(ステップS3070)。
話し言葉判断手段305は、国・言語および分野においてクラスタリングされた辞書情報に対して、そこにある言葉が話し言葉であるか否かを判断する(図3ステップS2030)。その詳細が図4にアクティビティ図として示されている。
話し言葉判断手段305は、辞書情報選択手段306から渡された辞書情報を読み込み(ステップS3051)、話し言葉情報を話し言葉情報データベース301から読み込んで、辞書情報に話し言葉情報が含まれるか否かを判断する(ステップS3052)。
話し言葉情報とつき合わせて辞書情報に明らかに話し言葉情報が存在する場合、この辞書情報を話し言葉認識と決定する(ステップS3055)。話し言葉情報が存在しない場合、辞書情報の付帯情報(HTMLファイルのメタ情報)を読み込み(ステップS3053)、図7に示すようにフォーム4006を示すHTMLタグ(これをフォーム情報という)を含んでいる場合、書き込みフォームなどによって投稿されるコンテンツであると判断できるので、ステップS3055に進んで話し言葉認識と決定する。判断できない場合は、書き言葉認識と決定する(ステップS3054)。
以上で国・言語および分野においてクラスタリングされ、話し言葉認識もしくは書き言葉認識と決定された辞書情報は、言語モデル作成手段304によって話し言葉認識の言語モデル307aもしくは書き言葉認識の言語モデル307bとして生成され、言語モデルデータベース307に登録される(図3ステップS2040)。音声認識管理サーバ20は、言語モデルデータベース307から言語モデルを取得する。
なお、言語モデルが生成される際、辞書情報として登録された単語や文節などを実際の話者に発声させて、辞書情報を音声データと関連付ける工程を含んでもよい。
音声認識管理サーバ20は音声認識を開始し(図3ステップS3000)、音声認識利用者用端末10の音声入力手段101からの音声入力を受け付ける(図3ステップS3010)。音声認識手段201は、取得した言語モデルを使用して音声認識を行い、認識結果のテキストを出力して(図3ステップS3020)、音声認識を終了する(図3ステップS3030)。
なお、ステップS3000の音声認識を開始する際、話し言葉認識の言語モデル307aおよび書き言葉認識の言語モデル307bのうちどちらを用いて音声認識を行うかを、音声認識利用者用端末10から音声を入力するユーザに選択させる工程を含んでもよい。また、クラスタリングされた言語モデルの、いずれの国・言語および分野において音声認識を行うかを、同様にユーザに選択させてもよい。
以上で説明したように、本実施の形態では、多数のウェブコンテンツを無作為に収集して、URL情報やHTMLのメタ情報などによってクラスタリングされた言語モデルを作成している。このため、充実した語彙を持ち、かつ適切にクラスタリングされた言語モデルを、少ない労力で得ることができる。特に新語や流行語などにも容易かつ迅速に対応できる。
そして、本実施の形態では、話し言葉認識もしくは書き言葉認識のいずれかを決定してから、その決定に対応する言語モデルを作成する。このため、書き言葉と話し言葉のそれぞれに的確に対応する言語モデルを、少ない労力で得ることができる。
以上で得られた、クラスタリング済みの話し言葉認識および書き言葉認識の言語モデルを音声認識に適用することにより、認識速度および認識率を向上させることが可能である。
これまで本発明について図面に示した特定の実施の形態をもって説明してきたが、本発明は図面に示した実施の形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができることは言うまでもないことである。
本発明は、音声認識における言語モデルの作成のみではなく、音声認識以外に言語モデルを作成する必要のある用途に対しても適用できる。たとえば、漢字カナ変換装置の分野別辞書情報作成といった用途にも適用可能である。
本発明の実施の形態に係るネットワークの構成を示す概念図である。 図1で示した音声認識利用者用端末と、音声認識管理サーバと、言語モデル作成装置(言語モデル作成サーバ、ウェブ情報収集サーバ)の各々の構成を示すブロック図である。 図1で示したネットワークにおける言語モデル作成と音声認識の流れを示すシーケンス図である。 図2で示した話し言葉判断手段の動作を示すアクティビティ図である。 図2で示した辞書情報選択手段の動作を示すアクティビティ図である。 図5で示す処理における、URLからの国・言語情報および分野情報の取得と判断の例を示す概念図である。 図5で示す処理における、HTMLからの国・言語情報および分野情報の取得と判断の例を示す概念図である。
符号の説明
1 ネットワーク
2 言語モデル作成装置
10 音声認識利用者用端末
20 音声認識管理サーバ
30 言語モデル作成サーバ
40 インターネット
50 ウェブサーバ
60 ウェブサイト利用者用端末
70 ウェブ情報収集サーバ
101 音声入力手段
102 認識結果表示手段
201 音声認識手段
301 話し言葉情報データベース
302 分野情報データベース
303 国・言語情報データベース
304 言語モデル作成手段
305 話し言葉判断手段
306 辞書情報選択手段
307 言語モデルデータベース
307a 話し言葉認識の言語モデル
307b 書き言葉認識の言語モデル
308 頻度確認手段
701 ウェブ情報取得手段
702 ウェブ情報データベース
4001 ドメイン末尾
4002 サブディレクトリ名
4003 文字コード宣言
4004 リンクタグ
4005 言語を示す文字列
4006 フォーム

Claims (14)

  1. インターネットを通じて閲覧可能なウェブコンテンツを取得するウェブ情報取得手段と、
    前記ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断手段と、
    前記話し言葉判断手段の判断に基づいて前記ウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成手段と
    を有することを特徴とする言語モデル作成装置。
  2. 前記話し言葉判断手段が、話し言葉に特有の単語および文法のうち少なくとも一つ以上を含む話し言葉情報について記憶している話し言葉情報データベースを併設し、前記ウェブコンテンツが前記話し言葉情報を含んでいれば前記ウェブコンテンツが話し言葉で記載されていると判断することを特徴とする、請求項1に記載の言語モデル作成装置。
  3. 前記話し言葉判断手段が、前記ウェブコンテンツが前記話し言葉情報を含んでいない場合、前記ウェブコンテンツを記述するHTMLタグがフォーム情報を含んでいれば前記ウェブコンテンツが話し言葉で記載されていると判断することを特徴とする、請求項2に記載の言語モデル作成装置。
  4. 前記ウェブコンテンツをクラスタリングする辞書情報選択手段を前記ウェブ情報取得手段と前記話し言葉判断手段の間に設け、
    前記話し言葉判断手段が前記クラスタリングされたウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断することを特徴とする、請求項2に記載の言語モデル作成装置。
  5. 前記辞書情報選択手段が、前記ウェブコンテンツが記述される言語、および前記ウェブコンテンツの記述内容が属する分野のうち、少なくとも一つ以上を用いて前記ウェブコンテンツをクラスタリングすることを特徴とする、請求項4に記載の言語モデル作成装置。
  6. 前記辞書情報選択手段が、前記ウェブコンテンツのURL、および前記ウェブコンテンツを記述するHTMLタグのうち少なくとも1つ以上から、前記ウェブコンテンツが記述される言語を判別することを特徴とする、請求項5に記載の言語モデル作成装置。
  7. 前記辞書情報選択手段が、前記ウェブコンテンツのURL、および前記ウェブコンテンツにリンクしている他のウェブコンテンツのリンクタグのうち少なくとも1つ以上から、前記ウェブコンテンツの記述内容が属する分野を判別することを特徴とする、請求項5に記載の言語モデル作成装置。
  8. 前記ウェブ情報取得手段が、ウェブページ上のハイパーリンクを辿って別のウェブページに移動する動作を繰り返して前記ウェブコンテンツを取得することを特徴とする、請求項2に記載の言語モデル作成装置。
  9. 言語モデル作成装置が言語モデルを作成する方法であって、
    インターネットを通じて閲覧可能なウェブコンテンツを取得するウェブ情報取得工程と、
    前記ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断工程と、
    前記話し言葉判断工程の判断に基づいて前記ウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成工程と
    を有することを特徴とする言語モデル作成方法。
  10. 前記話し言葉判断工程が、前記ウェブコンテンツが話し言葉に特有の単語および文法のうち少なくとも一つ以上を含む話し言葉情報を含んでいれば前記ウェブコンテンツが話し言葉で記載されていると判断することを特徴とする、請求項9に記載の言語モデル作成方法。
  11. 前記ウェブコンテンツをクラスタリングするクラスタリング工程を有し、
    前記話し言葉判断工程が前記クラスタリングされたウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断することを特徴とする、請求項10に記載の言語モデル作成方法。
  12. 前記ウェブ情報取得工程が、ウェブページ上のハイパーリンクを辿って別のウェブページに移動する動作を繰り返して前記ウェブコンテンツを取得することを特徴とする、請求項10に記載の言語モデル作成方法。
  13. 言語モデル作成装置を構成するコンピュータに、
    インターネットを通じて閲覧可能なウェブコンテンツを取得する処理と、
    前記ウェブコンテンツが書き言葉で記載されているか話し言葉で記載されているかを判断する話し言葉判断処理と、
    前記話し言葉判断処理の判断に基づいて前記ウェブコンテンツから話し言葉用の言語モデルおよび書き言葉用の言語モデルを作成する言語モデル作成処理と
    を有することを特徴とする言語モデル作成プログラム。
  14. 前記話し言葉判断処理が、前記ウェブコンテンツが話し言葉に特有の単語および文法のうち少なくとも一つ以上を含む話し言葉情報を含んでいれば前記ウェブコンテンツが話し言葉で記載されていると判断することを特徴とする、請求項13に記載の言語モデル作成プログラム。
JP2008007395A 2008-01-16 2008-01-16 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム Withdrawn JP2009169113A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008007395A JP2009169113A (ja) 2008-01-16 2008-01-16 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008007395A JP2009169113A (ja) 2008-01-16 2008-01-16 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム

Publications (1)

Publication Number Publication Date
JP2009169113A true JP2009169113A (ja) 2009-07-30

Family

ID=40970347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008007395A Withdrawn JP2009169113A (ja) 2008-01-16 2008-01-16 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム

Country Status (1)

Country Link
JP (1) JP2009169113A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
JP2014075030A (ja) * 2012-10-04 2014-04-24 Konica Minolta Inc ブラウザプログラム
JP2019095606A (ja) * 2017-11-22 2019-06-20 クラリオン株式会社 学習データ生成方法、学習データ生成プログラム、サーバ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
CN102725790A (zh) * 2010-02-05 2012-10-10 三菱电机株式会社 识别词典制作装置及声音识别装置
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
JP2014075030A (ja) * 2012-10-04 2014-04-24 Konica Minolta Inc ブラウザプログラム
US9626447B2 (en) 2012-10-04 2017-04-18 Konica Minolta, Inc. Non-transitory computer-readable recording medium having recorded browser program thereon
JP2019095606A (ja) * 2017-11-22 2019-06-20 クラリオン株式会社 学習データ生成方法、学習データ生成プログラム、サーバ

Similar Documents

Publication Publication Date Title
US7962842B2 (en) Method and systems for accessing data by spelling discrimination letters of link names
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP2000137596A (ja) 対話型音声応答システム
Dickinson et al. Language and computers
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Lyu et al. Neural OCR post-hoc correction of historical corpora
JP4738847B2 (ja) データ検索装置および方法
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP2009169113A (ja) 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム
KR101072100B1 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
Lane et al. A computational model for interactive transcription
JP2004184951A (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP4515186B2 (ja) 音声辞書作成装置、音声辞書作成方法、及びプログラム
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
Marian Orthographic and phonological neighborhood databases across multiple languages
Brinckmann Transcription bottleneck of speech corpus exploitation
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
Lyes et al. Building a pronunciation dictionary for the Kabyle language
EP1729284A1 (en) Method and systems for a accessing data by spelling discrimination letters of link names

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100409