JP2012083543A

JP2012083543A - 言語モデル生成装置、その方法及びそのプログラム

Info

Publication number: JP2012083543A
Application number: JP2010229526A
Authority: JP
Inventors: Kazuhiro Arai; 一博荒井; Tadashi Emori; 正江森
Original assignee: NEC Informatec Systems Ltd
Current assignee: NEC Informatec Systems Ltd
Priority date: 2010-10-12
Filing date: 2010-10-12
Publication date: 2012-04-26
Anticipated expiration: 2030-10-12
Also published as: US20120089397A1; US8831945B2; JP5403696B2; US9128907B2; US20140343926A1

Abstract

【課題】音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する。
【解決手段】Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析する。当該分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する。抽出された少なくとも１つの単語から単語セットを生成する。生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得する。
取得されたＷｅｂページから、音声認識のための言語モデルを作成する。
【選択図】図１

Description

本発明は、言語モデル生成装置、その方法及びそのプログラムに関し、特にインターネット上に存在するＷｅｂページから、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する言語モデル生成装置、その方法及びそのプログラムに関する。

音声認識のための言語モデルの作成にあたり、音声認識対象の単語情報を補完する方法として、インターネット上のＷｅｂページから当該対象の内容に類似する情報を収集して言語モデルを作成する手段がある。

一般に、指定された検索ワードに基づいてＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）を検索する検索システムによって検索が行われると、検索結果として得られるページには、所定の評価基準に応じた順位に沿って並べられたＷｅｂページへのリンクが出力される。評価の指標としては、検索ワードに対する出現頻度、ＨＴＭＬのメタデータ、ページリンク数、ユーザ参照数の高いページからリンクされたか否か等が用いられる。言語モデルの生成は、当該検索結果ページからリンクされるリンク先のＷｅｂページを取得して行われる。しかしながら、リンク先のＷｅｂページとしては、音声認識対象と類似する内容を含む一方で、複数の話題を含んでいたり、その他の専門分野について言及していたりするＷｅｂページが提示されることが多く、取得するＷｅｂページの選定を行わずに言語モデルが作成されると、音声認識の認識精度劣化に繋がってしまう。

このため、Ｗｅｂページの選定、及びＷｅｂページの選定に係る単語抽出のための種々の技術が提案されている。

例えば非特許文献１には、品詞情報が名詞である単語を音声認識の認識結果の単語列から抽出し、その単語を検索ワードとしてインターネット上のニュースサイトを検索し、類似するＷｅｂページの収集を行う技術が記載されている。また非特許文献２に記載の技術では，医療関連のコーパスを収集するため、医療という単語のみを検索ワードに使用し、検索結果のリンク先の２階層下の情報までを収集している。非特許文献３に記載の技術では、認識結果において出現頻度が上位５位までの単語を検索ワードとして抽出している。

また、特許文献１には、言語モデルの生成に際して、出現頻度が大きい単語を含む単語連鎖が不当に高い言語確率を持つことを防ぐための技術が記載されている。特許文献２には、映像内の文字列を用いてネットワーク上の情報を検索させるシステムにおいて、文字列の背景色に応じて検索の優先度を変更する技術が記載されている。また、特許文献３に記載されている音声認識や音声規則合成などを設計できるユーザインタフェース設計ツールでは、設計者が文字認識部品の設定を行うことができ、この認識モードを「平仮名」等に設定することができる。

特開２００２−２２９５８８号公報（段落[０１０３]）特開２０１０−０３９６４７号公報（段落[００４４]）特開平０９−１１４６２３号公報（段落[０１０７]，図１３）

伊藤，西崎，関口，"Ｗｅｂ上の類似記事を利用した音声文書の認識性能の改善"，信学技法，電子情報通信学会，ＮＬＣ２００５−６５，ＳＰ２００５−９８（２００５−１２），ｐ．４９−５３西村，長友，小松，黒田，李，猿渡，鹿野，"Ｗｅｂからの音声認識用言語モデル自動生成ツールの開発"，音声言語情報処理３５−８（２００１．２．３），ｐ．４３−４７高橋，森元，入江，"Ｗｅｂ上の類似記事自動収集による音声認識用言語モデルの適応と学習用ニュース記事コーパスの分析"，福岡大学工業集報７７，平成１８年９月，ｐ．３７−４４

しかしながら、非特許文献１に記載の技術では、品詞を名詞に絞り込んでも、固有名詞である人名として表現されるような「かおり」、「はじめ」、形式名詞としての「こと」等の平仮名からなる名詞単語での検索によって、該当単語を含む多種多様のＷｅｂページが検索されてしまう可能性がある。このため、このようなＷｅｂページを音声認識の言語モデルの学習コーパスとして使用してしまうと、認識精度の劣化に繋がりかねない。また、非特許文献２の手法を用いて検索結果上位から２階層分の情報を収集したとしても、２階層先のＷｅｂページの情報には、必ずしも目的のＷｅｂページとは限らないため、認識精度の劣化に繋がりかねない。また非特許文献３では、上位５位までの頻出単語出を検索ワードとして使用しているが、高頻度で出現する単語には、「は」「と」「を」等の助詞や「する」等のサ変変格動詞の活用といったあらゆる文書に高頻度で出現する語が含まれ得るため、これらを検索ワードとしても目的の検索結果が得られない。また、単語の言い換え、表記の揺らぎで同義語も含まれている可能性があるため、検索結果が偏ってしまい、目的とする情報が検索結果のリンク先からは十分な量のコーパスを収集できない。

また特許文献１には、単語抽出に際して、文章の特徴を表す特徴語を精度よく選択する技術は記載されていない。特許文献２では、言語モデルの生成に適した優先度を文字列に付与する技術は開示されていない。特許文献３では、平仮名や漢字等の文字の形式は認識させるが、音声認識対象の内容に応じてテキストを認識することはできない。

そこで、本発明は、インターネット上に存在するＷｅｂページから、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する言語モデル生成装置、その方法及びそのプログラムを提供することを目的とする。

本発明の第１の観点によれば、Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する抽出手段と、前記抽出手段が抽出した前記少なくとも１つの単語から単語セットを生成する単語セット生成手段と、前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するＷｅｂページ取得手段と、前記Ｗｅｂページ取得手段が取得したＷｅｂページから、音声認識のための言語モデルを作成する言語モデル作成手段と、を備えることを特徴とする言語モデル生成装置が提供される。

また、本発明の第２の観点によれば、Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出するステップと、前記抽出された前記少なくとも１つの単語から単語セットを生成するステップと、前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するステップと、前記取得されたＷｅｂページから、音声認識のための言語モデルを作成するステップと、を有することを特徴とする言語モデル生成方法が提供される。

更に、本発明の第３の観点によれば、言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する手順と、前記抽出された少なくとも１つの単語から単語セットを生成する手順と、前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得する手順と、前記取得されたＷｅｂページから、音声認識のための言語モデルを作成する手順と、を行わせることを特徴とする言語モデル生成プログラムが提供される。

本発明によれば、Ｗｅｂページを含むコーパスを分析し、所定の文書形式に適合する単語を抽出して、当該抽出された単語から作成された単語セットを検索クエリーとしてインターネット情報検索エンジンに検索を行わせて、検索結果のリンク先から取得されたＷｅｂページを基に言語モデルを生成するため、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成することができる。

本発明の第１の実施形態に係る言語モデル作成システムの構成の一例を示すブロック図である。本発明の第１の実施形態に係る単語セット生成処理の一例を示すフローチャートである。本発明の一実施形態に係るコーパス分析部が獲得する形態素解析結果の一例を示す図である。本発明の一実施形態に係る文書形式選択部によって定義あるいは選択された「文書形式」の例を示す表である。本発明の一実施形態に係る出現頻度の計算結果の一例を示す図である。本発明の第１の実施形態に係る単語セットの一例を示す図である。本発明の第２の実施形態に係る単語セット生成処理の一例を示すフローチャートである。本発明の第２の実施形態に係る単語セットの一例を示す図である。

以下、本発明の実施形態について図面を参照して詳細に説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る言語モデル作成システムの構成の一例を示すブロック図である。

図１に示す言語モデル作成システムでは、言語モデル作成装置３００が、言語モデル作成タスクコーパス１００から所定の音声認識タスクに応じた言語モデルを作成する。

言語モデル作成タスクコーパス１００は、ＨＴＭＬ及びＸＭＬ等の文書記述言語で記述された多様な文書（Ｗｅｂ（ＷｏｒｌｄＷｉｄｅＷｅｂ）ページ）を含む言語資源であり、言語モデル作成装置３００の学習コーパスとして使用される。本実施形態では、言語モデル作成タスクコーパス１００は、音声認識の対象タスクに類似する言語表現を含むものとする。

言語モデル作成装置３００は、単語抽出装置２００、Ｗｅｂページ取得部１０５、Ｗｅｂページ整形部１０６、及び言語モデル作成部１０７を含む。また単語抽出装置２００は、コーパス分析部１０１、文書形式選択部１０２、単語抽出部１０３、及び単語セット生成部１０４を含む。

単語抽出装置２００のコーパス分析部１０１は、言語モデル作成タスクコーパス１００内の各文書の記述内容に対して、文書の形態素解析を含む分析処理を行う。形態素解析には、例えばＭｅｃａｂシステム（京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニット提供，http://mecab.sourceforge.net/参照）、茶筌システム（奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座提供，http://chasen-legacy.sourceforge.jp/参照）といった既存の形態素解析技術が用いられてもよい。

コーパス分析部１０１による形態素解析の結果は、例えば図３（後述）のように表される。図３に示すように、テキストの形態素解析結果は、当該テキストに含まれる各単語の「表記」、「読み」、及び「品詞」の情報を含む。

単語抽出装置２００の文書形式選択部１０２は、単語抽出部１０３による単語抽出のルールを設定する。文書形式選択部１０２の動作によって、音声認識させたい内容やスタイルに合わせた「文書形式」が定義あるいは選択される。文書形式選択部１０２によって定義される「文書形式」の一例が、図４（後述）に示されている。図４に示す例では、尊敬語、謙譲語が含まれる「形式的な文書」、大阪弁、博多弁等の方言が含まれる「方言を含む文書」、日常会話的な文書が含まれる「口語的な文書」といった「文書形式」が定義されている。また、音声認識させたい内容やスタイルを変更する場合には、文書形式選択部１０２によって文書形式の定義が変更される。

単語抽出装置２００の単語抽出部１０３は、コーパス分析部１０１による分析結果から、文書形式選択部１０２が設定したルール（文書形式）に従って、音声認識の目的に結び付く検索結果が得られるような特徴的な単語を抽出する。

例えば議事録のような形式的な文書においては、「です」、「ます」といった付属語、及び「が」、「は」といった接続詞等のひらがなから構成される単語よりも、漢字、カタカナ、あるいは漢字仮名交じり、アルファベットで構成される単語が、特徴的な単語として単語抽出部１０３によって抽出される。また、議事録が例えば関西地方の方言を含む場合は、関西地方の方言「あらへん」を含む文字列が、あるいは議事録が九州地方の方言を含む場合は、九州地方の方言「そげな」を含む文字列が特徴的な単語として抽出される。更に日常会話の場合、「だよね」、「だね」、「えーっと」等の口語に特徴的なみられる文字列を抽出する。また、Googleが公開しているＷｅｂ上の膨大なテキスト情報から得られた単語の頻度情報（http://googlejapan.blogspot.com/2007/11/n-gram.ＨＴＭＬを参照）等を参照して、出現確率が高い単語を選ぶ方法が用いられてもよい。

単語抽出装置２００の単語セット生成部１０４は、単語抽出部１０３によって抽出された複数単語の組み合わせを単語セットとして生成する。一例として、単語セット生成部１０４は、「同期」、「売り上げ」「サービス」といった関連する単語の組み合わせを、単語セットとして生成する。以上のようにして単語抽出装置２００によって生成された単語セットは、Ｗｅｂページ取得部１０５によってＷｅｂページの取得に用いられる。

Ｗｅｂページ取得部１０５は、所定の検索エンジンを介してＷｅｂページ（の集合）にアクセスする機能を有する。Ｗｅｂページ取得部１０５は、単語セット生成部１０４が生成した単語セットを絞り込み検索するよう検索クエリーを生成し、当該クエリーによって検索エンジンに検索処理を行わせ、検索結果を取得する。この検索結果には、検索クエリーに応じたＷｅｂページへのリンクが含まれている。Ｗｅｂページ取得部１０５は、このリンクを介して、各Ｗｅｂページのデータを取得する。

Ｗｅｂページ整形部１０６は、Ｗｅｂページ取得部１０５が取得したＷｅｂページデータから、音声認識用の言語モデルの作成には不必要な記号（例えば鍵括弧、三角印、星印）、ＨＴＭＬタグ（例えば＜ｂｒ＞、＜ｈｅａｄ＞）を除去し、文章部分を抽出する。

言語モデル作成部１０７では、Ｗｅｂページ整形部１０６が抽出した文章部分を言語モデル作成用のコーパスとして使用し、言語モデルを作成する。音声認識用の言語モデルの作成には、例えばＪｕｌｉｕｓシステム（京都大学河原研究室、情報処理振興事業協会(IPA)、奈良先端科学技術大学院大学鹿野研究室、名古屋工業大学 Julius開発チーム、http://julius.sourceforge.jp/）、及びHTKシステム（University of Cambridge、http://htk.eng.cam.ac.uk/）などの既存のツールが用いられてもよい。生成された言語モデルは、種々の音声認識処理に用いられる。

なお、言語モデル生成装置３００の一部又は全部の機能は、プロセッサ、プログラムメモリ、及びワークメモリを備えた情報処理装置（例えばパーソナルコンピュータ）において、プログラムメモリに記憶されたプログラムをプロセッサが読み込んで実行することでソフトウェア的に実現されてもよい。あるいは言語モデル生成装置３００の一部又は全部の機能は、ハードウェアによって実装されてもよく、ハードウェアとソフトウェアの協働によって実現されてもよい。また、文書形式選択部１０２にキーボードやマウス等の入力装置が有線又は無線接続され、ユーザによる入植装置の操作に応じて文書形式が定義又は選択されてもよい。

続いて、上述の単語抽出装置２００の動作について詳細に説明する。

図２は、本発明の第１の実施形態に係る単語セット生成処理の一例を示すフローチャートである。

本実施形態に係る単語抽出処理では、まず、コーパス分析部１０１が言語モデル作成タスクコーパス１００の記述内容を形態素解析し、形態素解析結果を獲得する（ステップＳ２１）。形態素解析結果には、例えば図３に示すように、テキストを構成する各単語の「表記（文字列）」、「読み」、及び「品詞」を示す情報が含まれる。

図３は、本発明の一実施形態に係るコーパス分析部１０１が獲得する形態素解析結果の一例を示す図である。図３に示す例では、「今日はいい天気です。」というテキストの形態素解析の結果、６つの単語「今日」、「は」、「いい」、「天気」、「です」、及び「。」が検出されている。

このうち単語「今日」については、表記「今日」、読み「キョウ」、及び品詞「名詞」の各情報が検出される。同様に単語「は」について、表記「は」、読み「ハ」、及び品詞「助詞」の情報を含む形態素解析結果が、単語「いい」について、表記「いい」、読み「ヨイ」、及び品詞「形容詞」の情報を含む形態素解析結果が、単語「天気」について、表記「天気」、読み「テンキ」、及び品詞「名詞」の情報を含む形態素解析結果が、単語「です」について、表記「です」、読み「デス」、及び品詞「助動詞」の情報を含む形態素解析結果が検出される。句点「。」については、品詞「補助記号」の情報が獲得されている。

また図３に示す例では、「明日も晴れです。」というテキストの形態素解析の結果、５つの単語「明日」、「も」、「はれ」、「です」、及び「。」が検出されている。

このうち単語「明日」については、表記「明日」、読み「アス」、及び品詞「名詞」の各情報が検出される。同様に単語「も」について、表記「も」、読み「モ」、及び品詞「助詞」の情報を含む形態素解析結果が、単語「晴れ」について、表記「晴れ」、読み「ハレ」、及び品詞「名詞」の情報を含む形態素解析結果が、単語「です」について、表記「です」、読み「デス」、及び品詞「助動詞」の情報を含む形態素解析結果が検出される。句点「。」については、品詞「補助記号」の情報が獲得されている。

単語抽出部１０３は、図３に示すような形態素解析の結果から、所定の順序で１つの単語を選択し（ステップＳ２２）、以降の処理によって単語セット生成の対象の単語とするか否かを判定する。選択の順番は、例えばテキスト内での出現順に従えばよい。

単語抽出部１０３は、選択した単語の「表記」及び「読み」が、文書形式選択部１０２によって定義された文書形式におけるいずれかの文字列の「表記」及び「読み」情報と、一致するか否かを判定する（ステップＳ２３）。

図４は、本発明の一実施形態に係る文書形式選択部１０２によって定義あるいは選択された「文書形式」の例を示す表である。図４に示す例では、「形式文書」の文書形式を定義するための表記（文字列）として、「存じます」（読み：「ゾンジマス」）、「申し上げます」（読み：「モウシアゲマス」）、及び「うけたまわりました」（読み：「ウケタマワリマシタ」）の３つの表記文字列が定義されている。

また図４に示す例では、「方言」の文書形式を定義するための表記（文字列）として、「あかん」（読み：「アカン」）、「じゃけん」（読み：「ジャケン」）、「ばってん」（読み：「バッテン」）、及び「せえへん」（読み：「セエヘン」）の４つの表記文字列が定義されている。

更に図４に示す例では、「口語」の文書形式を定義するための表記（文字列）として、「えーっと」（読み：「エーット」）、「だよね」（読み：「ダヨネ」）、「そうそう」（読み：「ソウソウ」）、及び「そうかも」（読み：「ソウカモ」）の４つの表記文字列が定義されている。

単語抽出部１０３はステップＳ２２で選択した単語の「表記」と「読み」が、文書形式選択部１０２によって定義されたこれらの文字列の「表記」及び「読み」と一致するか否かをステップＳ２３で判定する。

選択された単語の「表記」と「読み」が、「文書形式」において設定された文字列の「表記」及び「読み」と一致する場合（ステップＳ２３でＹＥＳ）、当該選択された単語は、単語セット生成の対象として設定され、その出現頻度（出現回数）が計算される（ステップＳ２４）。

図５は、本発明の一実施形態に係る出現頻度の計算結果の一例を示す図である。

図５に示される例では、ステップＳ２２同じ単語が何度選択されたかが「出現頻度」として表されている。この例では、「表記」が「同期」、「読み」が「ヨミ」である単語の出現頻度として数値“３２”が与えられている。

同様に「前年」（読み：「ゼンネン」）の出現頻度として“３１”が、「減少」（読み：「ゲンショウ」）の出現頻度として“１９”が、「事業」（読み：「ジギョウ」）の出現頻度として“１６”が、「売り上げ」（読み：「ウリアゲ」）の出現頻度として“１６”が得られている（以降同様）。

一方、選択された単語の「表記」と「読み」が、「文書形式」において設定された「表記」及び「読み」と一致しない場合（ステップＳ２３でＮＯ）、単語抽出部１０３は、当該選択された単語の「品詞」情報が名詞を表すか否かを判定する（ステップＳ２５）。

選択された単語の「品詞」情報が名詞を表さない場合（ステップＳ２５でＮＯ）、当該単語は、単語セットの選択対象から除外される（ステップＳ２６）。

選択された単語の「品詞」情報が名詞を表す場合（ステップＳ２５でＹＥＳ）、単語抽出部１０３は、当該選択された単語が平仮名以外の表記を含むか否かを判定する（ステップＳ２７）。

選択された単語が平仮名のみで構成される場合（ステップＳ２７でＮＯ）、当該単語は、単語セットの選択対象から除外される（ステップＳ２６）。

一方、選択された単語が平仮名以外の表記を含む場合には（ステップＳ２７でＹＥＳ）、図５に示すような当該単語の出現頻度が計算される（ステップＳ２４）。

その後、単語抽出部１０３は、形態素解析の結果得られた全単語について、単語セット生成の対象とするかの判断を終了したか否かを判定する（ステップＳ２８）。未だに選択されていない単語があれば（ステップＳ２８でＮＯ）、処理はステップＳ２２に戻り、他の単語が選択されて以降の処理が繰り返される。

一方、単語抽出部１０３が、形態素解析の結果の全ての単語の選択を終了していれば（ステップＳ２８でＹＥＳ）、単語セット生成部１０４は、ステップＳ２４で算出した出現頻度に基づいて、以下の式（１）に従って各単語の単語情報量Ｉｘを算出する（ステップＳ２９）。

ただし、ステップＳ２９で単語情報量Ｉｘが算出されるのは、ステップＳ２６において除外されていない各単語についてである。

式（１）において、Ｔｘは各単語の出現頻度のべき乗を表す。この単語情報量Ｉｘの値が大きい単語は、言語モデル作成タスクコーパス１００の特徴を現す単語である、すなわち言語モデル作成タスクコーパス１００との類似が大きい単語であるとみなされる。

単語セット生成部１０４は、単語情報量Ｉｘの値が所定の閾値より高い単語を、所定の数だけ抽出する（ステップＳ３０）。単語の抽出は、単語情報量Ｉｘの大きさの順に行われてもよいが、所定数の単語がランダムに選択されてもよい。

単語セット生成部１０４は、抽出された単語から、図６に示すような単語セットを生成する（ステップＳ３１）。

図６は、本発明の第１の実施形態に係る単語セットの一例を示す図である。

図６に示す例では、「業績」、「前年」、「同期」、「分野」及び「売り上げ」の５つの単語の組み合わせが、単語セットとされている。これらの５単語は、図５において、出現頻度が高い単語であり、言語モデル作成タスクコーパスの特徴を強く表すものとみなされる。

単語抽出装置２００では、以上のような単語セット生成処理が行われ、生成された単語セットがＷｅｂページ取得部１０５へ送られる。

前述の通り、Ｗｅｂページ取得部１０５は、この単語セットを検索クエリーとして検索エンジンへ入力し、この単語セットに関連性がある検索結果を得る。Ｗｅｂページ整形部１０６は、Ｗｅｂページ取得部１０５が獲得したＷｅｂページから記号類や、ＨＴＭＬタグの除去を行い、文章部分の抽出を行う。言語モデル作成部１０７は、Ｗｅｂページ整形部１０６が抽出した文章部分を、音声認識用の言語モデル作成コーパスとして使用し、言語モデルを作成する。

以上の通り、本実施形態に係る言語モデル作成システムによれば、単語抽出装置２００によって得られた単語による絞り込み検索が行われるため、検索結果の上位ランクに、音声認識の対象タスクに類似する、あるいは関連性の高い言語表現を含むＷｅｂページの検索結果の一覧を表示させることができる。この検索結果一覧ページからのリンクを利用してＷｅｂページデータを取得することで、より精度の高い言語モデル作成用のコーパスを獲得することが可能となる。

次に、本発明に係る言語モデル作成システムの他の実施形態について説明する。以下の実施形態において、第１の実施形態と対応する部分には対応する符号を付し、その詳細な説明は省略する。

（第２の実施形態）
本発明の第２の実施形態に係る言語モデル作成システムの構成は、図１に示す第１の実施形態と同様であるので、その説明を省略する。

第１の実施形態に係る単語セット生成処理では、一例として、５単語の組み合わせの単語セットを１セット生成している。本実施形態では、言語モデル作成コーパス１００の文章量や内容に応じて単語セット内の単語数と生成するセット数を調整して、より効率的にＷｅｂページ選別する。

図７は、本発明の第２の実施形態に係る単語セット生成処理の一例を示すフローチャートである。

本実施形態に係る単語抽出処理では、まず、コーパス分析部１０１が言語モデル作成タスクコーパス１００の記述内容を形態素解析し、形態素解析結果を獲得する（ステップＳ７１）。形態素解析結果には、第１の実施形態と同様に、例えば図３に示すように、テキストを構成する各単語の「表記（文字列）」、「読み」、及び「品詞」を示す情報が含まれる。

単語抽出部１０３は、図３に示すような形態素解析の結果から、所定の順序で１つの単語を選択し（ステップＳ７２）、以降の処理によって単語セット生成の対象の単語とするか否かを判定する。選択の順番は、例えばテキスト内での出現順に従えばよい。

単語抽出部１０３は、選択した単語の「表記」及び「読み」が、文書形式選択部１０２によって定義された文書形式におけるいずれかの文字列の「表記」及び「読み」情報と、一致するか否かを判定する（ステップＳ７３）。文書形式選択部１０２による文書形式の定義は、第１の実施形態と同様に、例えば図４に示すように与えられる。

単語抽出部１０３はステップＳ７２で選択した単語の「表記」と「読み」が、文書形式選択部１０２によって定義されたこれらの文字列の「表記」及び「読み」と一致するか否かをステップＳ７３で判定する。

選択された単語の「表記」と「読み」が、「文書形式」において設定された文字列の「表記」及び「読み」と一致する場合（ステップＳ７３でＹＥＳ）、当該選択された単語は、単語セット生成の対象として設定され、その出現頻度（出現回数）が計算される（ステップＳ７４）。各単語の出現頻度の一例は、第１の実施形態と同様に、図５に示されている。

一方、選択された単語の「表記」と「読み」が、「文書形式」において設定された「表記」及び「読み」と一致しない場合（ステップＳ７３でＮＯ）、単語抽出部１０３は、当該選択された単語の「品詞」情報が名詞を表すか否かを判定する（ステップＳ７５）。

選択された単語の「品詞」情報が名詞を表さない場合（ステップＳ７５でＮＯ）、当該単語は、単語セットの選択対象から除外される（ステップＳ７６）。

選択された単語の「品詞」情報が名詞を表す場合（ステップＳ７５でＹＥＳ）、単語抽出部１０３は、当該選択された単語が平仮名以外の表記を含むか否かを判定する（ステップＳ７７）。

選択された単語が平仮名のみで構成される場合（ステップＳ７７でＮＯ）、当該単語は、単語セットの選択対象から除外される（ステップＳ７６）。

一方、選択された単語が平仮名以外の表記を含む場合には（ステップＳ７７でＹＥＳ）、図５に示すような当該単語の出現頻度が計算される（ステップＳ７４）。

その後、単語抽出部１０３は、形態素解析の結果得られた全単語について、単語セット生成の対象とするかの判断を終了したか否かを判定する（ステップＳ７８）。未だに選択されていない単語があれば（ステップＳ７８でＮＯ）、処理はステップＳ７２に戻り、他の単語が選択されて以降の処理が繰り返される。

一方、単語抽出部１０３が、形態素解析の結果の全ての単語の選択を終了していれば（ステップＳ７８でＹＥＳ）、単語セット生成部１０４は、ステップＳ２４で算出した出現頻度に基づいて、第１の実施形態と同様に（１）に従って各単語の単語情報量Ｉｘを算出する（ステップＳ７９）。

単語セット生成部１０４は、単語情報量Ｉｘの値が所定の閾値より高い単語を、所定の数だけ抽出する（ステップＳ８０）。単語の抽出は、単語情報量Ｉｘの大きさの順に行われてもよいが、所定数の単語がランダムに選択されてもよい。

単語セット生成部１０４は、抽出された単語から、ｎ個の単語を含む単語セットをｍセット生成する（ステップＳ８１）。

変数ｍ及びｎの値は、ユーザが単語抽出装置２００に接続された入力装置を介して設定してもよいが、コーパス分析部１０１による言語モデル作成タスクコーパス１００の文章量の分析結果に基づいて、設定されてもよい。

例えば言語モデル作成コーパス１００の文章量が少ない場合は、ステップＳ８０において抽出される単語数が減少してしまい、絞り込み検索の範囲が狭くなりすぎて音声認識対象に類似したＷｅｂページの獲得がうまくいかず、音声認識の精度が向上しないことがある。このような場合には、例えば図８のように３つの単語を含む単語セットを５組生成して、検索にバリエーションを持たせることで、絞り込み検索の範囲を広げることができる。

図８は、本発明の第２の実施形態に係る単語セットの一例を示す図である。

図８に示す例では、「業績」、「前年」、及び「サービス」の３つの単語の組み合わせが、単語セット１として生成されている。また単語セット２には、「分野」、「業績」、及び「売り上げ」の３単語が、単語セット３には、「四半期」、「売り上げ」、及び「業績」の３単語が、単語セット４には「サービス」、「売り上げ」、及び「業績」の３単語が、単語セット５には「四半期」、「サービス」、及び「投資」の３単語が含まれている。これらの単語セット１〜５に含まれる各単語は、例えばステップＳ８０で抽出された単語情報量の大きい単語からランダムに選択される。あるいは、ユーザが選択方法を事前に指定しておいてもよい。

これにより、絞り込み検索の範囲を広げ、音声認識の精度向上に繋がるＷｅｂページを取得することが可能となる。

以上の通り、本実施形態に係る言語モデル作成システムによれば、単語抽出装置２００によって得られた複数の単語セットによる絞り込み検索が行われるため、言語モデル作成タスクコーパス１００が包含する文章量が少ない場合であっても、より精度の高い言語モデル作成用のコーパスを獲得することが可能となる。

すなわち、本実施形態に係る言語モデル作成システムによれば、少量の言語モデル作成タスクコーパス１００からであっても、適切な単語を抽出し、当該言語モデルタスクコーパス１００と類似し、音声認識対象の内容を含む言語コーパスをインターネット上のＷｅｂページから効率的に収集することができる。

本発明の各実施形態によれば、音声認識技術における言語モデル作成において必要十分な情報を効率的にインターネット上から収集することが可能となり、かつ音声認識精度の良い言語モデルの作成が可能となる。

本発明の各実施形態によれば、音声認識させたい内容を含む少量のコーパスデータを準備するだけで、対象タスクに類似した言語モデルや地方方言などの発話スタイルにも対応した言語モデルを効率的に作成することができる。また、精度の良い言語モデルを作成するために必要な大量のデータを準備するためのコストも削減できる。

本発明の各実施形態においては、文章の特徴を現す単語情報量Ｉｘを算出し、単語情報量Ｉｘに基づいて各テキストにおいて特徴的である単語を抽出している。また、音声認識させたい文章の特徴を現す単語を優先して抽出し、言語モデルを作成している。このため、精度よく言語モデルを作成することが可能となる。

また、本発明の各実施形態では、平仮名、カタカナ、及び漢字等の文字のスタイルを認識して、平仮名のみを含む単語を単語セット生成の対象から排除しているが、例え平仮名のみを含む単語であっても、文書形式（図４参照）に定義されている文字列であれば、単語セットの生成対象として抽出が可能である。文書形式の定義に基づいて単語や文章を抽出することによって、尊敬語や謙譲語を含む発話、方言を含む発話などの発話スタイルを決定する効果を期待できる。

また、単語セット生成処理において、文書形式に定義がされていない単語については、単語自体が意味を持ち合わせている名詞を抽出し、更に平仮名のみの文字列を排除するという処理を行っているため、Ｗｅｂ検索時の曖昧性を排除することができ、目的の情報を効率的に取得することができる。

なお、本発明の各実施形態に係る単語抽出装置２００及び言語モデル作成装置３００は、ハードウェアにより実現することもできるが、コンピュータを単語抽出装置２００及び言語モデル作成装置３００として機能させるためのプログラムをコンピュータ読み取り可能な記憶媒体に記憶させ、コンピュータが当該プログラムを読み込んで実行することによっても実現することができる。

本発明の各実施形態に係る単語抽出装置２００をハードウェア的に又はソフトウェア的に実現して、既存の言語モデル作成手段と組み合わせることで、言語モデル作成装置３００と同等の機能を提供することができる。

上述の各実施形態では、言語モデル作成タスクコーパス１００をＷｅｂ文書の集合としたが、コーパスの内容はこれに限定されるものではない。

また、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも１つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するＷｅｂページ取得手段と、
前記Ｗｅｂページ取得手段が取得したＷｅｂページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。

（付記２）
前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記１に記載の言語モデル生成装置。

（付記３）
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする付記２に記載の言語モデル生成装置。

（付記４）
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする付記３に記載の言語モデル生成装置。

（付記５）
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする付記４に記載の言語モデル生成装置。

（付記６）
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする付記１乃至５のいずれか１に記載の言語モデル生成装置。

（付記７）
前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする付記１乃至６のいずれか１に記載の言語モデル生成装置。

（付記８）
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする付記１乃至７のいずれか１に記載の言語モデル生成装置。

（付記９）
Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出するステップと、
前記抽出された前記少なくとも１つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するステップと、
前記取得されたＷｅｂページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。

（付記１０）
前記文書形式を定義する文字列を設定するステップを更に備え、
前記少なくとも１つの単語の抽出においては、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記９に記載の言語モデル生成方法。

（付記１１）
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも１つの単語の抽出においては、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記１０に記載の言語モデル生成方法。

（付記１２）
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも１つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記１１に記載の言語モデル生成方法。

（付記１３）
前記少なくとも１つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場に、当該単語が抽出されることを特徴とする付記１２に記載の言語モデル生成方法。

（付記１４）
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記９乃至１３のいずれか１に記載の言語モデル生成方法。

（付記１５）
前記単語セットの生成においては、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする付記９乃至１４のいずれかに記載の言語モデル生成方法。

（付記１６）
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記９乃至１５のいずれか１に記載の言語モデル生成方法。

（付記１７）
言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する手順と、
前記抽出された前記少なくとも１つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得する手順と、
前記取得されたＷｅｂページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。

（付記１８）
前記コンピュータに前記文書形式を定義する文字列を設定する手順を更に行わせ、
前記少なくとも１つの単語を抽出する手順では、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語が抽出されることを特徴とする付記１７に記載の言語モデル生成プログラム。

（付記１９）
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも１つの単語を抽出する手順では、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記１８に記載の言語モデル生成プログラム。

（付記２０）
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも１つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記１９に記載の言語モデル生成プログラム。

（付記２１）
前記少なくとも１つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語が抽出されることを特徴とする付記２０に記載の言語モデル生成プログラム。

（付記２２）
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記１７乃至２１のいずれか１に記載の言語モデル生成プログラム。

（付記２３）
前記単語セットを生成する手順では、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする記１７乃至２２のいずれか１に記載の言語モデル生成プログラム。

（付記２４）
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記１７乃至２３のいずれか１に記載の言語モデル生成プログラム。

１００言語モデル作成タスクコーパス
１０１コーパス分析部
１０２文書形式選択部
１０３単語抽出部
１０４単語セット生成部
１０５Ｗｅｂページ取得部
１０６Ｗｅｂページ整形部
１０７言語モデル作成部
２００単語抽出装置
３００言語モデル作成装置

Claims

Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも１つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するＷｅｂページ取得手段と、
前記Ｗｅｂページ取得手段が取得したＷｅｂページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。
前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする請求項１に記載の言語モデル生成装置。
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする請求項２に記載の言語モデル生成装置。
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする請求項３に記載の言語モデル生成装置。
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする請求項４に記載の言語モデル生成装置。
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする請求項１乃至５のいずれか１項に記載の言語モデル生成装置。
前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする請求項１乃至６のいずれか１項に記載の言語モデル生成装置。
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする請求項１乃至７のいずれか１項に記載の言語モデル生成装置。
Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出するステップと、
前記抽出された前記少なくとも１つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得するステップと、
前記取得されたＷｅｂページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。
言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Ｗｅｂ(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも１つの単語を抽出する手順と、
前記抽出された少なくとも１つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のＷｅｂページを取得する手順と、
前記取得されたＷｅｂページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。