JP2007058509A - 言語処理システム - Google Patents

言語処理システム Download PDF

Info

Publication number
JP2007058509A
JP2007058509A JP2005242492A JP2005242492A JP2007058509A JP 2007058509 A JP2007058509 A JP 2007058509A JP 2005242492 A JP2005242492 A JP 2005242492A JP 2005242492 A JP2005242492 A JP 2005242492A JP 2007058509 A JP2007058509 A JP 2007058509A
Authority
JP
Japan
Prior art keywords
morpheme
prohibited
language processing
unit
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2005242492A
Other languages
English (en)
Inventor
Shigenobu Seto
重宣 瀬戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005242492A priority Critical patent/JP2007058509A/ja
Priority to CN2006101256010A priority patent/CN1920812B/zh
Priority to US11/508,841 priority patent/US7917352B2/en
Publication of JP2007058509A publication Critical patent/JP2007058509A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供する。
【解決手段】 使用禁止形態素を保存する禁止形態素記憶部202、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部111、及び禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部112を備える。

【選択図】 図1

Description

本発明は形態素解析技術に関し、特に言語処理システムに関する。
テキストから音声を合成するシステムでは、システムに予め登録されているシステム単語よりも、システム利用者が追加登録したユーザ登録単語を優先して音声合成に使用する機能が使われている。例えば、システムに「神戸(こうべ)」というシステム単語が登録されていたとしても、システム利用者が「神戸(かんべ)」というユーザ登録単語をシステムに追加すれば、その後は「神戸(こうべ)」よりも「神戸(かんべ)」の発音を優先して音声を合成する。
しかし、日本語のように単語を分かち書きにしない言語では、べた書きの段階でテキスト中にシステム利用者が追加したユーザ登録単語が含まれていた場合でも、形態素解析の過程でユーザ登録単語に該当する形態素を含まない単語系列が生成される可能性がある。例えば、「在阪神戸の」というテキストに対して、仮にシステム利用者が「神戸」の部分を「神戸(かんべ)」という読みで出力することを期待し、ユーザ登録単語に登録していたとする。しかし、システムが形態素解析の過程で「在−阪神−戸−の」と分かち書きにされた単語系列を生成した場合、「阪神」と「戸」の間が分割されたために「神戸(かんべ)」という読みは出力されない。反対に、テキスト中に放送禁止用語等のシステム利用者にとって好ましくない単語が含まれる場合、形態素解析により単語系列が確定された後に、リストに載せられた放送禁止用語と一致する形態素を検出し、その後、放送禁止用語と一致する形態素を読み飛ばしたり、あるいは別の単語に読み替える技術が提案されている(例えば、特許文献1参照。)。しかし、分かち書きにされた単語系列が確定される前に、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止するシステムはなかった。
特開平5−165486号公報
本発明は、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供する。
本発明の第1の態様によれば、使用禁止形態素を保存する禁止形態素記憶部と、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、禁止形態素記憶部から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部とを備える言語処理システムが提供される。
本発明の第2の態様によれば、使用禁止形態素を保存する禁止形態素記憶部と、禁止形態素記憶部に保存された使用禁止形態素を読み出し、使用禁止形態素の使用を禁止して、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部とを備える言語処理システムが提供される。
本発明によれば、システム利用者にとって好ましくない単語を含む単語系列の生成を予め防止する言語処理システムを提供可能である。
次に図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。なお以下の示す実施の形態は、この発明の技術的思想を具体化するための装置や方法を例示するものであって、この発明の技術的思想は構成部品の配置等を下記のものに特定するものではない。この発明の技術的思想は、特許請求の範囲において、種々の変更を加えることができる。
(第1の実施の形態)
第1の実施の形態に係る言語処理システムは、図1に示すように、中央演算処理装置(CPU)100a、CPU100aに接続されたデータ記憶装置200を備える。データ記憶装置200は禁止形態素記憶部202及びシステム辞書記憶部201をさらに備える。禁止形態素記憶部202は禁止された読みで読まれる禁止形態素を保存する。システム辞書記憶部201は、複数の単語の読み及び品詞を記録したシステム辞書を保存する。またCPU100aは系列候補生成部111、及び最適系列選択部112をさらに備える。系列候補生成部111は、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する。最適系列選択部112は、禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する。
具体的には、系列候補生成部111はべた書きで入力されたテキストをシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素を格子点に配置したラティス(lattice)構造を生成する。例えば、「主記憶上の空間が」というテキストが入力され、システム辞書に「主(ぬし)」、「主(しゅ)」、「主(あるじ)」、「主(おも)」、「記憶(きおく)」、「上の空(うわのそら)」、「上(うえ)」、「上(かみ)」、「上(じょう)」、「の」、「空(そら)」、「空(くう)」、及び「空(から)」、「空間(くうかん)」、「間(かん)」、「間(あいだ)」、「間(はざま)」、及び「が」のそれぞれの読みを付された形態素が登録されている場合、系列候補生成部111はシステム辞書に登録されている形態素の組み合わせである図2に示すラティス(lattice)構造50を生成する。ラティス構造50には複数の単語系列候補が含まれている。例えば、「主(ぬし)」を始点とすると、「主(ぬし)記憶(きおく)上の空(うわのそら)間(かん)が」という単語系列候補や、「主(ぬし)記憶(きおく)上(うえ)の空間(くうかん)が」という単語系列候補等が生成しうる。
図1に示す禁止形態素記憶部202は、システム利用者にとって出力させたくない「読み」で読まれる禁止形態素を保存する。例えば、図3に示すように、文字「主」に対してシステム利用者にとって出力させたくない読みである「しゅ」を読みに付した禁止形態素「主(おも)」、文字列「上の空」に対してシステム利用者にとって出力させたくない読みである「うわのそら」を読みに付した禁止形態素「上の空(うわのそら)」等を保存する。
図1に示す最適系列選択部112は、禁止モジュール114及び選択モジュール12をさらに備える。禁止モジュール114は、図2に示すラティス構造50に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものがあるか検索する。さらに禁止モジュール114は、禁止形態素がラティス構造50に検出された場合、禁止形態素をラティス構造50から削除する。例えば、図3に示すように禁止形態素「主(おも)」及び禁止形態素「上の空(うわのそら)」のそれぞれが禁止形態素記憶部202に保存されている場合、図4に示すように禁止形態素「主(おも)」及び「上の空(うわのそら)」をラティス構造50から削除する。
図1に示す選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造50から深さ優先探索(depth-first search)、幅優先探索(breadth-first search)等の探索アルゴリズムを用いて形態素間の連接可能性が最も高く、読みがもっともらしいと判断される最適単語系列を選択する。選択に際しては、最長一致法、文節数最小法、及びコスト最小法等のヒューリスティックス(heuristics)も併用する。ここでは、図1に示す選択モジュール12は、形態素間の連接可能性が最も高い単語系列である「主(しゅ)記憶(きおく)上(じょう)の空間(くうかん)が」をラティス構造50から最適単語系列として選択する。音声ファイル生成部116は、最適単語系列の読みを出力するための音声ファイルを生成する。
データ記憶装置200は、ラティス構造記憶部203及び最適系列記憶部204をさらに備える。ラティス構造記憶部203は系列候補生成部111が生成したラティス構造50を保存する。最適系列記憶部204は最適系列選択部112が選択した最適単語系列を保存する。またCPU100aには、スピーカ342、入力装置340、出力装置341、プログラム記憶装置230、及び一時記憶装置231がさらに接続される。スピーカ342は、音声ファイルに含まれる最適単語系列の読みを音声で出力する。入力装置340としては、例えばキーボード、及びマウス等のポインティングデバイス等が使用可能である。出力装置341には液晶ディスプレイ、モニタ等の画像表示装置、及びプリンタ等が使用可能である。プログラム記憶装置230は、CPU100aを制御するオペレーティングシステム等を保存する。一時記憶装置231は、CPU100aによる演算結果を逐次格納する。プログラム記憶装置230及び一時記憶装置231としては、例えば半導体メモリ、磁気ディスク、光ディスク、光磁気ディスクや磁気テープなどのプログラムを記録する記録媒体等が使用可能である。
次に図5に示すフローチャートを用いて第1の実施の形態に係る言語処理方法について説明する。
(a) ステップS100で、図1に示す入力装置340より漢字を含むべた書きのテキストをCPU100aの系列候補生成部111に入力する。ここでは一例として、「主記憶上の空間が」というテキストが入力されたものとする。次にステップS101で、系列候補生成部111は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図2に示すラティス構造50を生成する。系列候補生成部111は、生成したラティス構造50をラティス構造記憶部203に保存する。
(b) ステップS102で図1に示す禁止モジュール114は、ラティス構造記憶部203から図2に示すラティス構造50を読み出す。次に図1に示す禁止モジュール114は、図2に示すラティス構造50に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものがあるか検索する。ここで図3に示すように、禁止形態素「主(おも)」及び禁止形態素「上の空(うわのそら)」が禁止形態素記憶部202に保存されている場合、禁止モジュール114は図4に示すように禁止形態素「主(おも)」及び「上の空(うわのそら)」をラティス構造50から削除する。その後図1に示す禁止モジュール114は、禁止形態素が削除されたラティス構造50をラティス構造記憶部203に上書き保存する。
(c) ステップS103で選択モジュール12は、ラティス構造記憶部203から禁止形態素が削除されたラティス構造50を読み出す。次に選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造50から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。ここでは、選択モジュール12は「主(しゅ)記憶(きおく)上(じょう)の空間(くうかん)が」を最適単語系列として選択する。その後、最適系列選択部112は選択した最適単語系列を最適系列記憶部204に保存する。
(d) ステップS104で音声ファイル生成部116は、最適系列記憶部204から最適単語系列である「主(しゅ)記憶(きおく)上(じょう)の空間(くうかん)が」を読み出す。次に音声ファイル生成部116は、最適単語系列「主(しゅ)記憶(きおく)上(じょう)の空間(くうかん)が」の読みを音声ファイルに変換する。その後、音声ファイル生成部116はスピーカ342から音声ファイルに含まれる最適単語系列の読みを出力し、第1の実施の形態に係る言語処理方法を終了する。
以上、図1及び図5に示した第1の実施の形態に係る言語処理システム及び言語処理方法によれば、システム辞書に利用者にとって出力させたくない読みで読まれる単語が保存されていても、禁止形態素記憶部202に禁止形態素を保存しておくことにより、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。そのため、より高い確率で利用者が望む読みをテキストに付すことが可能となる。なお、図3に示した例では見出しと発音の組み合わせを禁止形態素記憶部202に保存する例を示した。これに対し図6に示すように、見出し、発音、及び品詞の組み合わせを禁止形態素記憶部202に保存してもよい。

(第2の実施の形態)
第2の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図7に示すように、系列候補生成部211に禁止部214が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、系列候補生成部211がシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定をする。したがって、例えば「主記憶上の空間が」というテキストが系列候補生成部211に入力された場合、系列候補生成部211はシステム辞書に含まれる禁止形態素と一致する形態素「上の空(うわのそら)」及び「間(かん)」を参照せず、図8に示すように禁止形態素を予め含まないラティス構造51を生成する。図7に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
次に図9に示すフローチャートを用いて第2の実施の形態に係る言語処理方法について説明する。
(a) ステップS200で、図7に示す入力装置340より漢字を含むべた書きのテキスト「主記憶上の空間が」をCPU100bの系列候補生成部211に入力する。ステップS201で禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、系列候補生成部211がシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定をする。
(b) ステップS202で、系列候補生成部211は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図8に示すラティス構造51を生成する。この時、ステップS201で系列候補生成部211はシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定がされているため、生成されたラティス構造51には禁止形態素が含まれていない。系列候補生成部211は、生成した禁止形態素を含まないラティス構造51をラティス構造記憶部203に保存する。
(c) ステップS203で最適系列選択部212は、禁止形態素を含まないラティス構造51をラティス構造記憶部203から読み出す。次に最適系列選択部212は、ラティス構造51から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。その後、ステップS104と同様にステップS204を実施して第2の実施の形態に係る言語処理方法を終了する。
以上、図7及び図9に示した第2の実施の形態に係る言語処理システム及び言語処理方法によっても、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。
(第3の実施の形態)
第3の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図10に示すように、最適系列選択部312に禁止部314が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、最適系列選択部312が禁止形態素を含む単語系列候補を最適単語系列として選択することを禁止する設定をする。図10に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
次に図11に示すフローチャートを用いて第3の実施の形態に係る言語処理方法について説明する。
(a) ステップS300で、図1に示す入力装置340より漢字を含むべた書きのテキスト「主記憶上の空間が」をCPU100cの系列候補生成部111に入力する。次にステップS301で、系列候補生成部111は入力されたテキストである「主記憶上の空間が」をシステム辞書記憶部201に保存されているシステム辞書を参照して複数の形態素に分解し、さらに複数の形態素で形成される図2に示すラティス構造50を生成する。系列候補生成部111は、生成したラティス構造50をラティス構造記憶部203に保存する。
(b) ステップS302で禁止部314は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、最適系列選択部312が禁止形態素を含む単語系列候補を最適単語系列として選択することを禁止する設定をする。ステップS303で最適系列選択部312は、ラティス構造記憶部203からラティス構造50を読み出す。次に最適系列選択部312は、禁止形態素を含む単語系列候補を除外しながら、探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列をラティス構造50から選択する。その後、ステップS104と同様にステップS304を実施して第3の実施の形態に係る言語処理方法を終了する。
以上、図10及び図11に示した第3の実施の形態に係る言語処理システム及び言語処理方法によっても、入力されたテキストに望ましくない読みが付されるのを防止することが可能となる。
(第4の実施の形態)
第4の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図12に示すように、CPU100dが誤範囲指定部120及び禁止形態素追加部121をさらに含む点である。ここで、例えば入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。この場合、誤範囲指定部120はシステム利用者から誤選択された最適単語系列のうち好ましくない読みが付された誤読形態素の指定を受け付ける。例えば文字列「上の空(うわのそら)間(かん)」が指定された場合、誤範囲指定部120は文字列「上の空(うわのそら)間(かん)」を形態素「上の空(うわのそら)」と形態素「間(かん)」に分割し、それぞれを誤読形態素と定義する。禁止形態素追加部121は誤読形態素を禁止形態素記憶部202に禁止形態素として追加保存する。図12に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
次に図14に示すフローチャートを用いて第4の実施の形態に係る言語処理方法について説明する。
(a) 図5に示すステップS100及びステップS101と同様に、図14に示すステップS400及びステップS401を実施する。ステップS402で図12に示す禁止モジュール114は、ラティス構造記憶部203からラティス構造を読み出す。次に禁止モジュール114は、ラティス構造に含まれる複数の形態素のうち、禁止形態素記憶部202に保存されている禁止形態素に該当するものを削除する。なおこの時、禁止形態素記憶部202には形態素「上の空(うわのそら)」及び「間(かん)」は保存されていないこととする。その後、禁止モジュール114は禁止形態素が削除されたラティス構造をラティス構造記憶部203に上書き保存する。
(b) ステップS403で選択モジュール12は、ラティス構造記憶部203から禁止形態素が削除されたラティス構造を読み出す。次に選択モジュール12は、図4に示す禁止形態素が削除されたラティス構造から探索アルゴリズム及びヒューリスティックスを用いて読みがもっともらしいと判断される最適単語系列を選択する。ここでは、選択モジュール12が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。その後、最適系列選択部112は誤選択した最適単語系列を最適系列記憶部204に保存し、出力装置341は誤選択された最適単語系列を出力する。
(c) ステップS404で誤範囲指定部120は、システム利用者からの入力装置340を介した誤範囲の入力を受け付ける。システム利用者が誤選択された最適単語系列「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」に含まれる文字列「上の空(うわのそら)間(かん)」を誤範囲として入力した場合、誤範囲指定部120は、文字列「上の空(うわのそら)間(かん)」を形態素「上の空(うわのそら)」と形態素「間(かん)」に分割し、それぞれを誤読形態素と定義する。その後誤範囲指定部120は、誤読形態素を禁止形態素追加部121に転送する。
(d) ステップS405で禁止形態素追加部121は、誤読形態素「上の空(うわのそら)」及び誤読形態素「間(かん)」のそれぞれを禁止形態素記憶部202に禁止形態素として保存し、第4の実施の形態に係る言語処理方法を終了する。
以上、図12及び図14に示した第4の実施の形態に係る言語処理システム及び言語処理方法によれば、次回以降は禁止形態素「上の空(うわのそら)」及び禁止形態素「間(かん)」を含む単語系列候補を最適単語系列として選択することがなくなる。なおステップS404で指定される誤範囲は、必ずしも最適単語系列内で形態素に分割可能な範囲でなくてもよい。具体的には、「上の空(うわのそら)間(かん)」ではなく「空(そら)間(かん)」を誤範囲として指定してもよい。この場合、禁止形態素追加部121は誤範囲として指定された「空(そら)」を部分的に含む形態素「上の空(うわのそら)」を禁止形態素記憶部202に禁止形態素として保存すればよい。また、第4の実施の形態においては図1に示した言語処理システムに誤範囲指定部120及び禁止形態素追加部121をさらに含めた例を示したが、図7あるいは図10に示した言語処理システムに誤範囲指定部120及び禁止形態素追加部121をさらに含めてもよいことは勿論である。
(第5の実施の形態)
第5の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図15に示すように、CPU100eが読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含む点である。ここで、入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。この場合、読み入力部122はシステム利用者から入力テキスト「主記憶上の空間が」の正しい読み「しゅきおくじょうのくうかんが」の入力を受け付ける。対比抽出部123は誤選択された最適単語系列の読みと、正しい読みとを対比し、誤選択された最適単語系列の読みで正しい読みと異なる差異部「うわのそら」を抽出する。禁止形態素追加部121は、差異部「うわのそら」が読みに付された誤読形態素「上の空(うわのそら)」を禁止形態素記憶部202に禁止形態素として保存する。図15に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
次に図16に示すフローチャートを用いて第5の実施の形態に係る言語処理方法について説明する。
(a) 図14に示すステップS400乃至ステップS403と同様に、図16に示すステップS500乃至ステップS503を実施し、最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。その後、最適系列選択部112は誤選択した最適単語系列を最適系列記憶部204に保存し、出力装置341は誤選択された最適単語系列を出力する。
(b) ステップS504で読み入力部122は、システム利用者からの入力装置340を介したテキスト「主記憶上の空間が」の正しい読み「しゅきおくじょうのくうかんが」の入力を受け付ける。読み入力部122は正しい読み「しゅきおくじょうのくうかんが」を読み記憶部205に保存する。ステップS405で対比抽出部123は、誤選択された最適単語系列「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適系列記憶部204から読み出し、正しい読み「しゅきおくじょうのくうかんが」を読み記憶部205から読み出す。次に対比抽出部123は誤選択された最適単語系列の読みと、正しい読みとを対比し、誤選択された最適単語系列の読みで正しい読みと異なる差異部「うわのそら」を抽出する。
(c) ステップS505で対比抽出部123は、誤選択された最適単語系列に含まれ、差異部「うわのそら」が読みに付された誤読形態素「上の空(うわのそら)」を禁止形態素追加部121に転送する。禁止形態素追加部121は、誤読形態素「上の空(うわのそら)」を禁止形態素記憶部202に禁止形態素として保存し、第5の実施の形態に係る言語処理方法を終了する。
以上、図15及び図16に示した第5の実施の形態に係る言語処理システム及び言語処理方法によれば、次回以降は禁止形態素「上の空(うわのそら)」を含む単語系列候補を最適単語系列として選択することがなくなる。また、第5の実施の形態においては図1に示した言語処理システムに読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含めた例を示したが、図7あるいは図10に示した言語処理システムに読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含めてもよいことは勿論である。
(その他の実施の形態)
上記のように、本発明の実施の形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。例えば、図15に示す読み入力部122はシステム利用者から入力テキストの正しい読みの入力を受け付けると説明した。これに対し、読み入力部122はシステム利用者から入力テキストの一部で正しい読みが付された形態素の入力を受け付けることとしてもよい。例えば最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択した場合、読み入力部122は正しい読みが付された形態素「空間(くうかん)」の入力を受け付け、対比抽出部123が形態素「空間(くうかん)」に違反する形態素「上の空(うわのそら)」及び「間(かん)が」を抽出してもよい。
また、実施の形態では音声ファイル生成部116が、最適単語系列の読みを出力するための音声ファイルを生成する例を示した。しかし、最適単語系列から直接音声ファイルを生成するのではなく、最適単語系列に基づいて発音情報(発音記号)ファイルを生成し、さらに発音記号ファイルから音声ファイルを生成するシステムであってもよい。また、図1にはCPU100aにスピーカ342が接続された例を示したが、必ずしもスピーカ342はCPU100aに接続されている必要はなく、生成された音声ファイルを別のコンピュータやオーディオシステムで使用してもよいことは勿論である。
また上述した言語処理方法は、時系列的につながった一連の処理あるいは操作として表現可能である。したがって、言語処理方法を図1に示すCPU100aで実行するために、CPU100a内のプロセッサなどが果たす複数の機能を特定するコンピュータプログラム製品で図5に示した言語処理方法を実現可能である。ここで、コンピュータプログラム製品は、CPU100aに入出力可能な記録媒体あるいは記録装置等をいう。記録媒体としては、メモリ装置、磁気ディスク装置、光ディスク装置、その他のプログラムを記録することができるような装置が含まれる。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。このように、本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明からは妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
本発明の第1の実施の形態に係る言語処理システムを示すブロック図である。 本発明の第1の実施の形態に係る言語処理システムが生成するラティス構造の第1の模式図である。 本発明の第1の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す第1の表である。 本発明の第1の実施の形態に係る言語処理システムが生成するラティス構造の第2の模式図である。 本発明の第1の実施の形態に係る言語処理方法を示すフローチャート図である。 本発明の第1の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す第2の表である。 本発明の第2の実施の形態に係る言語処理システムを示すブロック図である。 本発明の第2の実施の形態に係る言語処理システムが生成するラティス構造の模式図である。 本発明の第2の実施の形態に係る言語処理方法を示すフローチャート図である。 本発明の第3の実施の形態に係る言語処理システムを示すブロック図である。 本発明の第3の実施の形態に係る言語処理方法を示すフローチャート図である。 本発明の第4の実施の形態に係る言語処理システムを示すブロック図である。 本発明の第4の実施の形態に係る禁止形態素記憶部に保存されている禁止形態素を示す表である。 本発明の第4の実施の形態に係る言語処理方法を示すフローチャート図である。 本発明の第5の実施の形態に係る言語処理システムを示すブロック図である。 本発明の第5の実施の形態に係る言語処理方法を示すフローチャート図である。
符号の説明
50, 51…ラティス構造
100a, 100b, 100c, 100d, 100e…CPU
111, 211…系列候補生成部
112, 312…最適系列選択部
114, 214, 314…禁止部
120…誤範囲指定部
121…禁止形態素追加部
122…読み入力部
123…対比抽出部
201…システム辞書記憶部
202…禁止形態素記憶部
203…ラティス構造記憶部
204…最適系列記憶部
205…読み記憶部

Claims (5)

  1. 使用禁止形態素を保存する禁止形態素記憶部と、
    べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
    前記禁止形態素記憶部から前記使用禁止形態素を読み出し、前記複数の単語系列候補から前記使用禁止形態素を含むものを除外し、前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
    とを備えることを特徴とする言語処理システム。
  2. 使用禁止形態素を保存する禁止形態素記憶部と、
    前記禁止形態素記憶部に保存された前記使用禁止形態素を読み出し、前記使用禁止形態素の使用を禁止して、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
    前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
    とを備えることを特徴とする言語処理システム。
  3. 前記最適単語系列のうち、前記テキストの正しい読みと異なる読みが付された誤読形態素の指定を受け付ける誤範囲指定部を更に備えることを特徴とする請求項1又は2に記載の言語処理システム。
  4. 前記最適単語系列の読みと前記テキストの正しい読みとを対比し、前記最適単語系列から前記正しい読みと異なる読みが付された誤読形態素を抽出する対比抽出部を更に備えることを特徴とする請求項1又は2に記載の言語処理システム。
  5. 前記誤読形態素を前記禁止形態素記憶部に前記禁止形態素として追加保存する禁止形態素追加部を更に備えることを特徴とする請求項3又は4に記載の言語処理システム。
JP2005242492A 2005-08-24 2005-08-24 言語処理システム Abandoned JP2007058509A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005242492A JP2007058509A (ja) 2005-08-24 2005-08-24 言語処理システム
CN2006101256010A CN1920812B (zh) 2005-08-24 2006-08-24 语言处理系统
US11/508,841 US7917352B2 (en) 2005-08-24 2006-08-24 Language processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005242492A JP2007058509A (ja) 2005-08-24 2005-08-24 言語処理システム

Publications (1)

Publication Number Publication Date
JP2007058509A true JP2007058509A (ja) 2007-03-08

Family

ID=37778538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005242492A Abandoned JP2007058509A (ja) 2005-08-24 2005-08-24 言語処理システム

Country Status (3)

Country Link
US (1) US7917352B2 (ja)
JP (1) JP2007058509A (ja)
CN (1) CN1920812B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092838A (ja) * 2012-11-01 2014-05-19 Nec Corp 形態素解析装置、形態素解析プログラム、及び、形態素解析方法
JP2015191317A (ja) * 2014-03-27 2015-11-02 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP2015194801A (ja) * 2014-03-31 2015-11-05 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008029881A1 (fr) * 2006-09-07 2008-03-13 Nec Corporation Système de traitement du langage naturel et système d'enregistrement de dictionnaire
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
US20130151251A1 (en) * 2011-12-12 2013-06-13 Advanced Micro Devices, Inc. Automatic dialog replacement by real-time analytic processing
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム
US8831953B2 (en) 2013-01-16 2014-09-09 Vikas Vanjani Systems and methods for filtering objectionable content
US10157620B2 (en) 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
US9705618B1 (en) * 2015-12-18 2017-07-11 Intel Corporation Systems, methods and devices for public announcements
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61264472A (ja) * 1985-05-20 1986-11-22 Toshiba Corp 文書作成装置
JPH0567072A (ja) * 1991-09-09 1993-03-19 Canon Inc 文字処理装置
JPH08185197A (ja) * 1994-12-28 1996-07-16 Fujitsu Ltd 日本語解析装置、及び日本語テキスト音声合成装置
JP2000194389A (ja) * 1998-12-25 2000-07-14 Matsushita Electric Ind Co Ltd 情報処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829423A (en) * 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JPH05165486A (ja) 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US6182028B1 (en) * 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6640006B2 (en) * 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6233718B1 (en) * 1998-10-19 2001-05-15 Dolby Laboratories Licensing Corporation Avoiding forbidden data patterns in coded audio data
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US7580827B1 (en) * 2003-12-31 2009-08-25 Google Inc. Semantic unit recognition
US7437290B2 (en) * 2004-10-28 2008-10-14 Microsoft Corporation Automatic censorship of audio data for broadcast

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61264472A (ja) * 1985-05-20 1986-11-22 Toshiba Corp 文書作成装置
JPH0567072A (ja) * 1991-09-09 1993-03-19 Canon Inc 文字処理装置
JPH08185197A (ja) * 1994-12-28 1996-07-16 Fujitsu Ltd 日本語解析装置、及び日本語テキスト音声合成装置
JP2000194389A (ja) * 1998-12-25 2000-07-14 Matsushita Electric Ind Co Ltd 情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092838A (ja) * 2012-11-01 2014-05-19 Nec Corp 形態素解析装置、形態素解析プログラム、及び、形態素解析方法
JP2015191317A (ja) * 2014-03-27 2015-11-02 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム
JP2015194801A (ja) * 2014-03-31 2015-11-05 Kddi株式会社 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム

Also Published As

Publication number Publication date
CN1920812A (zh) 2007-02-28
CN1920812B (zh) 2011-02-02
US7917352B2 (en) 2011-03-29
US20070055496A1 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
JP2007058509A (ja) 言語処理システム
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
KR101265263B1 (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
JP5172682B2 (ja) 音素のnグラムを使用した単語および名前の生成
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
JP4859101B2 (ja) テキストに付与する発音情報の編集を支援するシステム
JP2005107597A (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP2001229180A (ja) コンテンツ検索装置
JP2013069228A (ja) 情報処理装置、情報処理方法およびプログラム
JP5248121B2 (ja) 愛称を推定する装置、方法およびプログラム
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP2002221981A (ja) 音声合成装置および音声合成方法
JP6168422B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP4765274B2 (ja) 音声合成装置及び音声合成方法
JP2009238128A (ja) ローマ字変換装置及び方法、ローマ字変換プログラム
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP2012027729A (ja) 検索装置、検索方法及びプログラム
JP5742454B2 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
JP2019144840A (ja) ルビ設定プログラム及びルビ設定装置
JP2004294639A (ja) 音声合成用テキスト解析装置および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20120412