JP2007058509A

JP2007058509A - 言語処理システム

Info

Publication number: JP2007058509A
Application number: JP2005242492A
Authority: JP
Inventors: Shigenobu Seto; 重宣瀬戸
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-08-24
Filing date: 2005-08-24
Publication date: 2007-03-08
Also published as: CN1920812A; CN1920812B; US7917352B2; US20070055496A1

Abstract

【課題】システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供する。
【解決手段】使用禁止形態素を保存する禁止形態素記憶部202、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部111、及び禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部112を備える。

【選択図】図１

Description

本発明は形態素解析技術に関し、特に言語処理システムに関する。

テキストから音声を合成するシステムでは、システムに予め登録されているシステム単語よりも、システム利用者が追加登録したユーザ登録単語を優先して音声合成に使用する機能が使われている。例えば、システムに「神戸（こうべ）」というシステム単語が登録されていたとしても、システム利用者が「神戸（かんべ）」というユーザ登録単語をシステムに追加すれば、その後は「神戸（こうべ）」よりも「神戸（かんべ）」の発音を優先して音声を合成する。

しかし、日本語のように単語を分かち書きにしない言語では、べた書きの段階でテキスト中にシステム利用者が追加したユーザ登録単語が含まれていた場合でも、形態素解析の過程でユーザ登録単語に該当する形態素を含まない単語系列が生成される可能性がある。例えば、「在阪神戸の」というテキストに対して、仮にシステム利用者が「神戸」の部分を「神戸（かんべ）」という読みで出力することを期待し、ユーザ登録単語に登録していたとする。しかし、システムが形態素解析の過程で「在−阪神−戸−の」と分かち書きにされた単語系列を生成した場合、「阪神」と「戸」の間が分割されたために「神戸（かんべ）」という読みは出力されない。反対に、テキスト中に放送禁止用語等のシステム利用者にとって好ましくない単語が含まれる場合、形態素解析により単語系列が確定された後に、リストに載せられた放送禁止用語と一致する形態素を検出し、その後、放送禁止用語と一致する形態素を読み飛ばしたり、あるいは別の単語に読み替える技術が提案されている（例えば、特許文献１参照。）。しかし、分かち書きにされた単語系列が確定される前に、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止するシステムはなかった。
特開平5−165486号公報

本発明は、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供する。

本発明の第1の態様によれば、使用禁止形態素を保存する禁止形態素記憶部と、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、禁止形態素記憶部から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部とを備える言語処理システムが提供される。

本発明の第2の態様によれば、使用禁止形態素を保存する禁止形態素記憶部と、禁止形態素記憶部に保存された使用禁止形態素を読み出し、使用禁止形態素の使用を禁止して、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部とを備える言語処理システムが提供される。

本発明によれば、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供可能である。

次に図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。なお以下の示す実施の形態は、この発明の技術的思想を具体化するための装置や方法を例示するものであって、この発明の技術的思想は構成部品の配置等を下記のものに特定するものではない。この発明の技術的思想は、特許請求の範囲において、種々の変更を加えることができる。

（第1の実施の形態）
第1の実施の形態に係る言語処理システムは、図1に示すように、中央演算処理装置(CPU)100a、CPU100aに接続されたデータ記憶装置200を備える。データ記憶装置200は禁止形態素記憶部202及びシステム辞書記憶部201をさらに備える。禁止形態素記憶部202は禁止された読みで読まれる禁止形態素を保存する。システム辞書記憶部201は、複数の単語の読み及び品詞を記録したシステム辞書を保存する。またCPU100aは系列候補生成部111、及び最適系列選択部112をさらに備える。系列候補生成部111は、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する。最適系列選択部112は、禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する。

具体的には、系列候補生成部111はべた書きで入力されたテキストをシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素を格子点に配置したラティス(lattice)構造を生成する。例えば、「主記憶上の空間が」というテキストが入力され、システム辞書に「主（ぬし）」、「主（しゅ）」、「主（あるじ）」、「主（おも）」、「記憶（きおく）」、「上の空（うわのそら）」、「上（うえ）」、「上（かみ）」、「上（じょう）」、「の」、「空（そら）」、「空（くう）」、及び「空（から）」、「空間（くうかん）」、「間（かん）」、「間（あいだ）」、「間（はざま）」、及び「が」のそれぞれの読みを付された形態素が登録されている場合、系列候補生成部111はシステム辞書に登録されている形態素の組み合わせである図2に示すラティス(lattice)構造50を生成する。ラティス構造50には複数の単語系列候補が含まれている。例えば、「主（ぬし）」を始点とすると、「主（ぬし）記憶（きおく）上の空（うわのそら）間（かん）が」という単語系列候補や、「主（ぬし）記憶（きおく）上（うえ）の空間（くうかん）が」という単語系列候補等が生成しうる。

図1に示す禁止形態素記憶部202は、システム利用者にとって出力させたくない「読み」で読まれる禁止形態素を保存する。例えば、図3に示すように、文字「主」に対してシステム利用者にとって出力させたくない読みである「しゅ」を読みに付した禁止形態素「主（おも）」、文字列「上の空」に対してシステム利用者にとって出力させたくない読みである「うわのそら」を読みに付した禁止形態素「上の空（うわのそら）」等を保存する。

図1に示す最適系列選択部112は、禁止モジュール114及び選択モジュール12をさらに備える。禁止モジュール114は、図2に示すラティス構造50に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものがあるか検索する。さらに禁止モジュール114は、禁止形態素がラティス構造50に検出された場合、禁止形態素をラティス構造50から削除する。例えば、図3に示すように禁止形態素「主（おも）」及び禁止形態素「上の空（うわのそら）」のそれぞれが禁止形態素記憶部202に保存されている場合、図4に示すように禁止形態素「主（おも）」及び「上の空（うわのそら）」をラティス構造50から削除する。

図1に示す選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造50から深さ優先探索(depth-first search)、幅優先探索(breadth-first search)等の探索アルゴリズムを用いて形態素間の連接可能性が最も高く、読みがもっともらしいと判断される最適単語系列を選択する。選択に際しては、最長一致法、文節数最小法、及びコスト最小法等のヒューリスティックス(heuristics)も併用する。ここでは、図1に示す選択モジュール12は、形態素間の連接可能性が最も高い単語系列である「主（しゅ）記憶（きおく）上（じょう）の空間（くうかん）が」をラティス構造50から最適単語系列として選択する。音声ファイル生成部116は、最適単語系列の読みを出力するための音声ファイルを生成する。

データ記憶装置200は、ラティス構造記憶部203及び最適系列記憶部204をさらに備える。ラティス構造記憶部203は系列候補生成部111が生成したラティス構造50を保存する。最適系列記憶部204は最適系列選択部112が選択した最適単語系列を保存する。またCPU100aには、スピーカ342、入力装置340、出力装置341、プログラム記憶装置230、及び一時記憶装置231がさらに接続される。スピーカ342は、音声ファイルに含まれる最適単語系列の読みを音声で出力する。入力装置340としては、例えばキーボード、及びマウス等のポインティングデバイス等が使用可能である。出力装置341には液晶ディスプレイ、モニタ等の画像表示装置、及びプリンタ等が使用可能である。プログラム記憶装置230は、CPU100aを制御するオペレーティングシステム等を保存する。一時記憶装置231は、CPU100aによる演算結果を逐次格納する。プログラム記憶装置230及び一時記憶装置231としては、例えば半導体メモリ、磁気ディスク、光ディスク、光磁気ディスクや磁気テープなどのプログラムを記録する記録媒体等が使用可能である。

次に図5に示すフローチャートを用いて第1の実施の形態に係る言語処理方法について説明する。

(a) ステップS100で、図1に示す入力装置340より漢字を含むべた書きのテキストをCPU100aの系列候補生成部111に入力する。ここでは一例として、「主記憶上の空間が」というテキストが入力されたものとする。次にステップS101で、系列候補生成部111は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図2に示すラティス構造50を生成する。系列候補生成部111は、生成したラティス構造50をラティス構造記憶部203に保存する。

(b) ステップS102で図1に示す禁止モジュール114は、ラティス構造記憶部203から図2に示すラティス構造50を読み出す。次に図1に示す禁止モジュール114は、図2に示すラティス構造50に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものがあるか検索する。ここで図3に示すように、禁止形態素「主（おも）」及び禁止形態素「上の空（うわのそら）」が禁止形態素記憶部202に保存されている場合、禁止モジュール114は図4に示すように禁止形態素「主（おも）」及び「上の空（うわのそら）」をラティス構造50から削除する。その後図1に示す禁止モジュール114は、禁止形態素が削除されたラティス構造50をラティス構造記憶部203に上書き保存する。

(c) ステップS103で選択モジュール12は、ラティス構造記憶部203から禁止形態素が削除されたラティス構造50を読み出す。次に選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造50から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。ここでは、選択モジュール12は「主（しゅ）記憶（きおく）上（じょう）の空間（くうかん）が」を最適単語系列として選択する。その後、最適系列選択部112は選択した最適単語系列を最適系列記憶部204に保存する。

(d) ステップS104で音声ファイル生成部116は、最適系列記憶部204から最適単語系列である「主（しゅ）記憶（きおく）上（じょう）の空間（くうかん）が」を読み出す。次に音声ファイル生成部116は、最適単語系列「主（しゅ）記憶（きおく）上（じょう）の空間（くうかん）が」の読みを音声ファイルに変換する。その後、音声ファイル生成部116はスピーカ342から音声ファイルに含まれる最適単語系列の読みを出力し、第1の実施の形態に係る言語処理方法を終了する。

以上、図1及び図5に示した第1の実施の形態に係る言語処理システム及び言語処理方法によれば、システム辞書に利用者にとって出力させたくない読みで読まれる単語が保存されていても、禁止形態素記憶部202に禁止形態素を保存しておくことにより、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。そのため、より高い確率で利用者が望む読みをテキストに付すことが可能となる。なお、図3に示した例では見出しと発音の組み合わせを禁止形態素記憶部202に保存する例を示した。これに対し図6に示すように、見出し、発音、及び品詞の組み合わせを禁止形態素記憶部202に保存してもよい。

（第2の実施の形態）
第2の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図7に示すように、系列候補生成部211に禁止部214が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、系列候補生成部211がシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定をする。したがって、例えば「主記憶上の空間が」というテキストが系列候補生成部211に入力された場合、系列候補生成部211はシステム辞書に含まれる禁止形態素と一致する形態素「上の空（うわのそら）」及び「間（かん）」を参照せず、図8に示すように禁止形態素を予め含まないラティス構造51を生成する。図7に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。

次に図9に示すフローチャートを用いて第2の実施の形態に係る言語処理方法について説明する。

(a) ステップS200で、図7に示す入力装置340より漢字を含むべた書きのテキスト「主記憶上の空間が」をCPU100bの系列候補生成部211に入力する。ステップS201で禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、系列候補生成部211がシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定をする。

(b) ステップS202で、系列候補生成部211は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図8に示すラティス構造51を生成する。この時、ステップS201で系列候補生成部211はシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定がされているため、生成されたラティス構造51には禁止形態素が含まれていない。系列候補生成部211は、生成した禁止形態素を含まないラティス構造51をラティス構造記憶部203に保存する。

(c) ステップS203で最適系列選択部212は、禁止形態素を含まないラティス構造51をラティス構造記憶部203から読み出す。次に最適系列選択部212は、ラティス構造51から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。その後、ステップS104と同様にステップS204を実施して第2の実施の形態に係る言語処理方法を終了する。

以上、図7及び図9に示した第2の実施の形態に係る言語処理システム及び言語処理方法によっても、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。

（第3の実施の形態）
第3の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図10に示すように、最適系列選択部312に禁止部314が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、最適系列選択部312が禁止形態素を含む単語系列候補を最適単語系列として選択することを禁止する設定をする。図10に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。

次に図11に示すフローチャートを用いて第3の実施の形態に係る言語処理方法について説明する。

(a) ステップS300で、図1に示す入力装置340より漢字を含むべた書きのテキスト「主記憶上の空間が」をCPU100cの系列候補生成部111に入力する。次にステップS301で、系列候補生成部111は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図2に示すラティス構造50を生成する。系列候補生成部111は、生成したラティス構造50をラティス構造記憶部203に保存する。

(b) ステップS302で禁止部314は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、最適系列選択部312が禁止形態素を含む単語系列候補を最適単語系列として選択することを禁止する設定をする。ステップS303で最適系列選択部312は、ラティス構造記憶部203からラティス構造50を読み出す。次に最適系列選択部312は、禁止形態素を含む単語系列候補を除外しながら、探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列をラティス構造50から選択する。その後、ステップS104と同様にステップS304を実施して第3の実施の形態に係る言語処理方法を終了する。

以上、図10及び図11に示した第3の実施の形態に係る言語処理システム及び言語処理方法によっても、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。

（第4の実施の形態）
第4の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図12に示すように、CPU100dが誤範囲指定部120及び禁止形態素追加部121をさらに含む点である。ここで、例えば入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適単語系列として誤選択したとする。この場合、誤範囲指定部120はシステム利用者から誤選択された最適単語系列のうち好ましくない読みが付された誤読形態素の指定を受け付ける。例えば文字列「上の空（うわのそら）間（かん）」が指定された場合、誤範囲指定部120は文字列「上の空（うわのそら）間（かん）」を形態素「上の空（うわのそら）」と形態素「間（かん）」に分割し、それぞれを誤読形態素と定義する。禁止形態素追加部121は誤読形態素を禁止形態素記憶部202に禁止形態素として追加保存する。図12に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。

次に図14に示すフローチャートを用いて第4の実施の形態に係る言語処理方法について説明する。

(a) 図5に示すステップS100及びステップS101と同様に、図14に示すステップS400及びステップS401を実施する。ステップS402で図12に示す禁止モジュール114は、ラティス構造記憶部203からラティス構造を読み出す。次に禁止モジュール114は、ラティス構造に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものを削除する。なおこの時、禁止形態素記憶部202には形態素「上の空（うわのそら）」及び「間（かん）」は保存されていないこととする。その後、禁止モジュール114は禁止形態素が削除されたラティス構造をラティス構造記憶部203に上書き保存する。

(b) ステップS403で選択モジュール12は、ラティス構造記憶部203から禁止形態素が削除されたラティス構造を読み出す。次に選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。ここでは、選択モジュール12が「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適単語系列として誤選択したとする。その後、最適系列選択部112は誤選択した最適単語系列を最適系列記憶部204に保存し、出力装置341は誤選択された最適単語系列を出力する。

(c) ステップS404で誤範囲指定部120は、システム利用者からの入力装置340を介した誤範囲の入力を受け付ける。システム利用者が誤選択された最適単語系列「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」に含まれる文字列「上の空（うわのそら）間（かん）」を誤範囲として入力した場合、誤範囲指定部120は、文字列「上の空（うわのそら）間（かん）」を形態素「上の空（うわのそら）」と形態素「間（かん）」に分割し、それぞれを誤読形態素と定義する。その後誤範囲指定部120は、誤読形態素を禁止形態素追加部121に転送する。

(d) ステップS405で禁止形態素追加部121は、誤読形態素「上の空（うわのそら）」及び誤読形態素「間（かん）」のそれぞれを禁止形態素記憶部202に禁止形態素として保存し、第4の実施の形態に係る言語処理方法を終了する。

以上、図12及び図14に示した第4の実施の形態に係る言語処理システム及び言語処理方法によれば、次回以降は禁止形態素「上の空（うわのそら）」及び禁止形態素「間（かん）」を含む単語系列候補を最適単語系列として選択することがなくなる。なおステップS404で指定される誤範囲は、必ずしも最適単語系列内で形態素に分割可能な範囲でなくてもよい。具体的には、「上の空（うわのそら）間（かん）」ではなく「空（そら）間（かん）」を誤範囲として指定してもよい。この場合、禁止形態素追加部121は誤範囲として指定された「空（そら）」を部分的に含む形態素「上の空（うわのそら）」を禁止形態素記憶部202に禁止形態素として保存すればよい。また、第4の実施の形態においては図1に示した言語処理システムに誤範囲指定部120及び禁止形態素追加部121をさらに含めた例を示したが、図7あるいは図10に示した言語処理システムに誤範囲指定部120及び禁止形態素追加部121をさらに含めてもよいことは勿論である。

（第5の実施の形態）
第5の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図15に示すように、CPU100eが読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含む点である。ここで、入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適単語系列として誤選択したとする。この場合、読み入力部122はシステム利用者から入力テキスト「主記憶上の空間が」の正しい読み「しゅきおくじょうのくうかんが」の入力を受け付ける。対比抽出部123は誤選択された最適単語系列の読みと、正しい読みとを対比し、誤選択された最適単語系列の読みで正しい読みと異なる差異部「うわのそら」を抽出する。禁止形態素追加部121は、差異部「うわのそら」が読みに付された誤読形態素「上の空（うわのそら）」を禁止形態素記憶部202に禁止形態素として保存する。図15に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。

次に図16に示すフローチャートを用いて第5の実施の形態に係る言語処理方法について説明する。

(a) 図14に示すステップS400乃至ステップS403と同様に、図16に示すステップS500乃至ステップS503を実施し、最適系列選択部112が「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適単語系列として誤選択したとする。その後、最適系列選択部112は誤選択した最適単語系列を最適系列記憶部204に保存し、出力装置341は誤選択された最適単語系列を出力する。

(b) ステップS504で読み入力部122は、システム利用者からの入力装置340を介したテキスト「主記憶上の空間が」の正しい読み「しゅきおくじょうのくうかんが」の入力を受け付ける。読み入力部122は正しい読み「しゅきおくじょうのくうかんが」を読み記憶部205に保存する。ステップS405で対比抽出部123は、誤選択された最適単語系列「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適系列記憶部204から読み出し、正しい読み「しゅきおくじょうのくうかんが」を読み記憶部205から読み出す。次に対比抽出部123は誤選択された最適単語系列の読みと、正しい読みとを対比し、誤選択された最適単語系列の読みで正しい読みと異なる差異部「うわのそら」を抽出する。

(c) ステップS505で対比抽出部123は、誤選択された最適単語系列に含まれ、差異部「うわのそら」が読みに付された誤読形態素「上の空（うわのそら）」を禁止形態素追加部121に転送する。禁止形態素追加部121は、誤読形態素「上の空（うわのそら）」を禁止形態素記憶部202に禁止形態素として保存し、第5の実施の形態に係る言語処理方法を終了する。

以上、図15及び図16に示した第5の実施の形態に係る言語処理システム及び言語処理方法によれば、次回以降は禁止形態素「上の空（うわのそら）」を含む単語系列候補を最適単語系列として選択することがなくなる。また、第5の実施の形態においては図1に示した言語処理システムに読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含めた例を示したが、図7あるいは図10に示した言語処理システムに読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含めてもよいことは勿論である。

（その他の実施の形態）
上記のように、本発明の実施の形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。例えば、図15に示す読み入力部122はシステム利用者から入力テキストの正しい読みの入力を受け付けると説明した。これに対し、読み入力部122はシステム利用者から入力テキストの一部で正しい読みが付された形態素の入力を受け付けることとしてもよい。例えば最適系列選択部112が「主（しゅ）記憶（きおく）上の空（うわのそら）間（かん）が」を最適単語系列として誤選択した場合、読み入力部122は正しい読みが付された形態素「空間（くうかん）」の入力を受け付け、対比抽出部123が形態素「空間（くうかん）」に違反する形態素「上の空（うわのそら）」及び「間（かん）が」を抽出してもよい。

また、実施の形態では音声ファイル生成部116が、最適単語系列の読みを出力するための音声ファイルを生成する例を示した。しかし、最適単語系列から直接音声ファイルを生成するのではなく、最適単語系列に基づいて発音情報（発音記号）ファイルを生成し、さらに発音記号ファイルから音声ファイルを生成するシステムであってもよい。また、図1にはCPU100aにスピーカ342が接続された例を示したが、必ずしもスピーカ342はCPU100aに接続されている必要はなく、生成された音声ファイルを別のコンピュータやオーディオシステムで使用してもよいことは勿論である。

また上述した言語処理方法は、時系列的につながった一連の処理あるいは操作として表現可能である。したがって、言語処理方法を図1に示すCPU100aで実行するために、CPU100a内のプロセッサなどが果たす複数の機能を特定するコンピュータプログラム製品で図5に示した言語処理方法を実現可能である。ここで、コンピュータプログラム製品は、CPU100aに入出力可能な記録媒体あるいは記録装置等をいう。記録媒体としては、メモリ装置、磁気ディスク装置、光ディスク装置、その他のプログラムを記録することができるような装置が含まれる。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明からは妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

本発明の第１の実施の形態に係る言語処理システムを示すブロック図である。本発明の第１の実施の形態に係る言語処理システムが生成するラティス構造の第１の模式図である。本発明の第１の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す第１の表である。本発明の第１の実施の形態に係る言語処理システムが生成するラティス構造の第２の模式図である。本発明の第１の実施の形態に係る言語処理方法を示すフローチャート図である。本発明の第１の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す第２の表である。本発明の第２の実施の形態に係る言語処理システムを示すブロック図である。本発明の第２の実施の形態に係る言語処理システムが生成するラティス構造の模式図である。本発明の第２の実施の形態に係る言語処理方法を示すフローチャート図である。本発明の第３の実施の形態に係る言語処理システムを示すブロック図である。本発明の第３の実施の形態に係る言語処理方法を示すフローチャート図である。本発明の第４の実施の形態に係る言語処理システムを示すブロック図である。本発明の第４の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す表である。本発明の第４の実施の形態に係る言語処理方法を示すフローチャート図である。本発明の第５の実施の形態に係る言語処理システムを示すブロック図である。本発明の第５の実施の形態に係る言語処理方法を示すフローチャート図である。

符号の説明

50, 51…ラティス構造
100a, 100b, 100c, 100d, 100e…CPU
111, 211…系列候補生成部
112, 312…最適系列選択部
114, 214, 314…禁止部
120…誤範囲指定部
121…禁止形態素追加部
122…読み入力部
123…対比抽出部
201…システム辞書記憶部
202…禁止形態素記憶部
203…ラティス構造記憶部
204…最適系列記憶部
205…読み記憶部

Claims

使用禁止形態素を保存する禁止形態素記憶部と、
べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
前記禁止形態素記憶部から前記使用禁止形態素を読み出し、前記複数の単語系列候補から前記使用禁止形態素を含むものを除外し、前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
とを備えることを特徴とする言語処理システム。
使用禁止形態素を保存する禁止形態素記憶部と、
前記禁止形態素記憶部に保存された前記使用禁止形態素を読み出し、前記使用禁止形態素の使用を禁止して、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
とを備えることを特徴とする言語処理システム。
前記最適単語系列のうち、前記テキストの正しい読みと異なる読みが付された誤読形態素の指定を受け付ける誤範囲指定部を更に備えることを特徴とする請求項１又は２に記載の言語処理システム。
前記最適単語系列の読みと前記テキストの正しい読みとを対比し、前記最適単語系列から前記正しい読みと異なる読みが付された誤読形態素を抽出する対比抽出部を更に備えることを特徴とする請求項１又は２に記載の言語処理システム。
前記誤読形態素を前記禁止形態素記憶部に前記禁止形態素として追加保存する禁止形態素追加部を更に備えることを特徴とする請求項３又は４に記載の言語処理システム。