JP5239863B2 - 自然言語処理システムおよび辞書登録システム - Google Patents

自然言語処理システムおよび辞書登録システム Download PDF

Info

Publication number
JP5239863B2
JP5239863B2 JP2008533198A JP2008533198A JP5239863B2 JP 5239863 B2 JP5239863 B2 JP 5239863B2 JP 2008533198 A JP2008533198 A JP 2008533198A JP 2008533198 A JP2008533198 A JP 2008533198A JP 5239863 B2 JP5239863 B2 JP 5239863B2
Authority
JP
Japan
Prior art keywords
dictionary
data
input
registration
dictionary data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008533198A
Other languages
English (en)
Other versions
JPWO2008029881A1 (ja
Inventor
真一 安藤
邦彦 定政
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008533198A priority Critical patent/JP5239863B2/ja
Publication of JPWO2008029881A1 publication Critical patent/JPWO2008029881A1/ja
Application granted granted Critical
Publication of JP5239863B2 publication Critical patent/JP5239863B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、辞書に格納された言語情報を用いて自然言語を処理する技術に関し、特に辞書の更新を容易に行なうことができる自然言語処理システム、及び、該システムに用いる辞書登録システムに関する。
仮名漢字変換、機械翻訳、音声認識、音声合成といった自然言語処理システムは、基本的に辞書に格納された単語とそこに付与された言語情報に基づいて処理を行なっており、辞書に格納されていない単語、すなわち未知語を適切に処理することは困難である。一方、自然言語は日々変化しており、新語が生まれたり、また既知語であっても新たな用法が発生したりするため、予めこれら全てを辞書に格納しておくことは難しい。そこで従来から、個々のユーザが必要になった単語を個別に登録することができるユーザ辞書機能を提供することでこの問題に対応してきた。
辞書登録作業は個々のユーザにとってはコストのかかる作業である。このため、辞書登録作業のコスト軽減を目的として、個々のユーザが登録した辞書データを複数のユーザ間で共有する方法が提案されている。
例えば非特許文献1には最新の辞書や個々のユーザが作成したユーザ辞書を専用のウェブページ上で公開し、各ユーザにこれを活用させる方法が記載されている。ただしこの方法では、個々のユーザは該ホームページを常に監視していない限り、自分にとって有用な辞書が公開されているかどうかを即座に知ることができないという問題があった。
また特許文献1には、個々のユーザが各自のユーザ辞書に登録した辞書データを横断的に検査して複数のユーザのユーザ辞書に共通して登録されている辞書データを抽出し、抽出した辞書データを共有すべき辞書データとしてユーザ全員のユーザ辞書に反映する方法が記載されている。
さらに特許文献2には、個々のユーザ辞書を特定の専門用語辞書に関連付けて管理する機構を備え、個々のユーザが各自のユーザ辞書に登録した辞書データを横断的に検査して同一の専門用語辞書に関連付けられた複数のユーザ辞書に共通して登録されている辞書データを抽出し、抽出した辞書データを共有すべき辞書データとして該専門用語辞書に反映することで、複数のユーザ間でその辞書データを共有する方法が記載されている。
上記方法では、自動的に抽出した辞書データが辞書に登録されることで、あるユーザにとっては却って自然言語処理の精度が落ちる場合がある。これは抽出された辞書データが、多くのユーザにとっては有用であっても、その他のユーザにとっては必ずしも有益であるとは限らないためである。また、このように不必要な単語の辞書データが登録されることで自然言語処理システムが判断を誤る可能性が高まるためである。このため特許文献2や特許文献3には、個々のユーザに新たな辞書データが共有辞書に登録されたことを通知し、その単語を利用するかどうかを問い合わせる方法も記載されている。これらの方法は新たな辞書データが利用可能であることを即座にユーザに伝達し、また該辞書データを利用するか否かの最終判断をユーザに任せることで不適切な辞書データが個々のユーザ辞書に混入することを防ごうとするものである。
日本電気株式会社、「翻訳アダプタII CROSSROADVer.3 HANDBOOK」、1999年、P.134-135 特許公報3464881B 特許公報JP−2003−157257A
従来技術における第1の問題点は、個々のユーザにとって各々の辞書データに対して要不要の判断を下すことが難しいことである。その理由は、ユーザがその時点で利用していない単語の辞書データについて要不要の判断を迫られたとしても、将来的な可能性を含めてその辞書データが必要になるかどうかはそのユーザにも判断がつかないためである。
また第2の問題点は、従来の方法においては個々のユーザに随時、登録すべき辞書データを通知して利用するかどうかを問い合わせるが、これがユーザの行動を阻害することである。その理由は、従来の方法における通知、問い合わせが、それを受ける側のユーザの都合を考慮せずに行なわれているためである。
発明の概要
本発明の目的は、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる自然言語処理システムを提供することにある。
本発明の他の目的は、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる自然言語処理システムを提供することにある。
本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力された指示に従って対応辞書データを辞書に登録する辞書登録手段と、辞書登録手段によって登録候補辞書データが登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて入力データに自然言語処理を施し、また、辞書登録手段によって登録候補辞書データが登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて入力データに自然言語処理を施す自然言語処理手段とを備える自然言語処理システムを提供する。
本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力された指示に従って対応辞書データを辞書に登録する辞書登録手段とを備える辞書登録システムを提供する。
本発明は、コンピュータが入力データに自然言語処理を施す自然言語処理方法であって、前記コンピュータが、入力データと記憶装置に記憶されている登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し、対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指示に従って対応辞書データを辞書に登録し、辞書登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて入力データに自然言語処理を施し、また、辞書登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて入力データに自然言語処理を施すことにより自然言語処理を行う自然言語処理方法を提供する。
本発明は、コンピュータが記憶装置に記憶されている登録候補辞書データを辞書に登録する辞書登録方法であって、前記コンピュータが、入力データと前記登録候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し、対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指示に従って対応辞書データを辞書に登録することにより辞書データの登録を行う辞書登録方法を提供する。
本発明は、制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ・プログラムであって、前記CPUに、登録候補辞書データを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定処理と、前記判定処理で前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ処理と、前記問い合わせ処理へ入力された指示に従って前記登録候補辞書データを前記辞書に登録する辞書登録処理と、前記辞書登録処理によって前記登録候補辞書データが登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて前記入力データに自然言語処理を施し、また、前記辞書登録処理によって前記登録候補辞書データが登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて前記入力データに自然言語処理を施す処理とを実行させるプログラムを提供する。
本発明は、制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ・プログラムであって、前記CPUに、登録候補辞書データを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定処理と、前記判定処理で、前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ処理と、前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理とを実行させるプログラムを提供する。
本発明の上記、及び、他の目的、特徴及び利益は、図面を参照する以下の説明により明らかになる。
本発明の第1の実施形態例に係る自然言語処理システムの構成を示すブロック図である。 図1の自然言語処理システムの動作を示すフローチャートである。 本発明の第2の実施形態例に係る辞書登録システムの構成を示すブロック図である。 本発明の第3の実施形態に係るコンピュータシステムの構成を示すブロック図である。 登録候補記憶部のデータ構造例を示す図である。 辞書データの登録確認画面の一例を示す図である。 辞書データの登録確認画面の一例を示す図である。
本発明の第1の実施形態例に係る自然言語処理システム10について図面を参照して詳細に説明する。
図1を参照すると、自然言語処理システム10は、キーボードやマイク等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置、スピーカ等の出力装置4とを含む。
記憶装置3は、辞書記憶部31と登録候補記憶部32とを備えている。辞書記憶部31は、個々のユーザの辞書を格納しており、また各々の辞書には単語とそれに対応する言語情報が格納されている。ここで言語情報は後述する自然言語処理手段21がその処理のために参照する情報であり、例えば、仮名表記、読み、訳語、品詞、意味情報などから構成される。登録候補記憶部32は、個々のユーザの辞書に新たに登録すべき辞書データの候補である登録候補辞書データを記憶している。ここで辞書データは辞書に登録された情報の最小単位であり、単語とそれに対応する言語情報からなる。
データ処理装置2は、自然言語処理手段21と判定手段22と問い合わせ手段23と辞書登録手段24とを備える。
自然言語処理手段21は、ユーザからの入力を受け付け、その入力データに対して辞書記憶部31に格納されているそのユーザの辞書を利用して自然言語処理を施し、処理の結果を出力する。ここで自然言語処理手段21の行なう自然言語処理は例えば、機械翻訳処理や音声合成処理である。ここで機械翻訳処理は入力された第一の言語の文字列を第二の言語の文字列に変換する処理であり、音声合成処理は入力された文字列を音声信号に変換する処理である。また自然言語処理手段21は入力データに対して自然言語処理を施す前に、その入力データを判定手段22に出力する。なお自然言語処理手段21が未知語検出機能を備えるようにし、入力データを常に判定手段22に出力するのではなく、入力データ内に未知語が発見された場合に限って判定手段22に入力データが出力され、判定手段22が動作する形態を取っても良い。
判定手段22は、自然言語処理手段21から入力された入力データと登録候補記憶部32に格納された辞書データの単語を比較し、当該入力データに登録候補記憶部32に格納された辞書データに対応する単語(以下、「対応する単語」という)が含まれるかどうかを検査する。ここで当該入力データに対応する単語が発見された場合、その対応する単語に対応する登録候補辞書データ(以下、「対応辞書データ」という)を問い合わせ手段23に出力する。なお入力データに未知語が発見された場合に限って判定手段22が動作する形態をとった場合には、さらに判定手段22が入力データに対応する単語が含まれるかどうかを検査する際に、入力データ中の未知語を含む部分と辞書データの単語に重なりがある場合に限って対応する単語が含まれると判定する形態を取っても良い。
問い合わせ手段23は、判定手段22から入力された対応辞書データを出力装置4に表示して辞書に登録するかどうかをユーザに問い合わせる。ここで入力装置1から登録する旨の入力がなされた場合、問い合わせ手段23はその対応辞書データを辞書登録手段24に出力する。また入力装置1から登録する必要がない旨の入力がなされた場合は自然言語処理手段21に制御を戻す。なお入力装置1から登録する必要がない旨の入力がなされた場合には、さらに対応辞書データを登録対象外であることを表す情報とともに登録候補記憶部32に記録することで、その後で登録候補記憶部32に同じ辞書データが登録されたとしても登録対象外として処理する形態を取っても良い。
辞書登録手段24は、問い合わせ手段23から入力された対応辞書データを辞書に登録し、自然言語処理手段21に制御を戻す。
次に、図1及び図2のフローチャートを参照して、自然言語処理システム10の動作について詳細に説明する。
まず自然言語処理手段21は入力装置1から入力を受け付けると、自然言語処理を実行する前に入力された入力データを判定手段22に出力する。判定手段22は、自然言語処理手段21から入力データを受け付けると、登録候補記憶部32から登録候補辞書データを取り出す(図2のステップA1)。
次に登録候補記憶部32から登録候補辞書データが取り出せたか、取り出せたならその辞書データが登録対象外でないかを検査し、辞書に登録すべき辞書データの候補が存在するかどうかを調べる(ステップA2)。ここで登録すべき辞書データの候補が存在しない場合、自然言語処理手段21は入力データに対して自然言語処理を施し、その結果を出力装置4に出力する(ステップA2の判定がノー、ステップA10)。
また登録すべき辞書データの候補が存在する場合、判定手段22は入力データとその各々の辞書データとを比較する(ステップA3およびA4)。入力データに対応する単語が含まれていない場合、自然言語処理手段21は入力データに対して自然言語処理を施し、その結果を出力装置4に出力する(ステップA4の判定がノー、ステップA10)。
入力データに対応する単語が含まれている場合、問い合わせ手段23は出力装置4にその辞書データ(対応辞書データ)を表示し、辞書に登録するかどうかをユーザに問い合わせる(ステップA5)。その後、入力装置1から問い合わせに対する応答の入力を受け付け、登録対象外と入力された対応辞書データが存在するかどうかを調べる(ステップA6)。登録対象外と入力された対応辞書データが存在する場合、問い合わせ手段23は当該辞書データを登録対象外であることを表す情報とともに登録候補記憶部32に記録する(ステップA7)。
その後、もしくはステップA6で登録対象外と入力された辞書データが存在しない場合、問い合わせ手段23は登録すると入力された対応辞書データが存在するかどうかを調べる(ステップA8)。登録すると入力された対応辞書データが存在する場合、辞書登録手段23は当該辞書データを辞書に登録する(ステップA9)。
その後、もしくはステップA8で登録すると入力された対応辞書データが存在しない場合、自然言語処理手段21は辞書記憶部31に記憶された辞書を用いて入力データに自然言語処理を施し、その結果を出力装置4に出力する(ステップA10)。
次に、本実施の形態の効果について説明する。
本実施の形態では、ユーザが自然言語処理手段21に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限って、その辞書データに関する通知、問い合わせを行なうように構成されている。
このため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿って有用性を判断することができ、その要不要の判断を容易に下せるようになる。またユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができ、行動を阻害されずに辞書データの要不要を判断することができるようになる。
次に、本発明の第2の実施形態例に係る辞書登録システム11について図面を参照して詳細に説明する。辞書登録システム11は、自然言語処理システム10のうち辞書データを辞書に登録するために必要な部分により構成されているため、自然言語処理システム10と共通する部分については図面に図1と同一の符号を付して説明を省略する。
図3を参照すると、辞書登録システム11は、図1の自然言語処理手段21に代わり、自然言語処理手段21の未知語検出機能に相当する未知語検索手段25を備えている。
入力装置1から入力される入力データは、自然言語処理の対象となるデータではなく、辞書登録処理のために予め用意された文章等のデータである。
また、出力装置4は、対応辞書データの登録可否問い合わせとそれに対する応答の入力にのみ用いられる。
次に、本発明の第3の実施形態例に係るコンピュータシステム12について図面を参照して詳細に説明する。
図4を参照すると、コンピュータシステム12は、本発明の第1の実施の形態と同様に、入力装置1、データ処理装置6、記憶装置3、出力装置4を備える。
自然言語処理用プログラム5は、データ処理装置6に読み込まれデータ処理装置6の動作を制御し、記憶装置3に辞書記憶部31と登録候補記憶部32を生成する。データ処理装置6は自然言語処理用検索プログラム5の制御により第1の実施の形態におけるデータ処理装置2による処理と同一の処理を実行する。
また、自然言語登録処理プログラム5の代わりに辞書登録処理プログラム7をデータ処理装置6に読み込み、第2の実施形態におけるデータ処理装置2による処理と同一の処理を実行するようにしてもよい。
次に、本発明の第1の実施例を、図面を参照して説明する。かかる実施例は本発明の第1の実施形態に対応するものである。以下では特に自然言語処理手段21が機械翻訳処理を行なう場合を考える。
本実施例は、入力装置1としてキーボードを、データ処理装置2としてパーソナルコンピュータを、データ記憶装置3として磁気ディスク記録装置を、出力装置4としてディスプレイを備えている。
パーソナルコンピュータは、自然言語処理手段21、判定手段22、問い合わせ手段23、辞書登録手段24として機能する中央演算装置を有しており、また磁気ディスク記憶装置には、辞書記憶部31および登録候補記憶部32として機能する記憶領域が確保されている。
ここでは登録候補記憶部32に登録候補として図5に示した辞書データが格納されている場合を考える。図5では登録候補となる辞書データの内容を表形式で示しており、その表の一行一行が一つの辞書データを表している。例えば1行目は、日本語が「ジーン」、英語が「gene」、品詞が「名詞」である辞書データを表している。またさらに4列目にはその辞書データが登録対象外であるかどうかを示す情報を格納している。ここで「−」は後述する登録対象外であるかどうかの検査が完了していないことを表し、「対象外」は過去に後述する検査によって対象外と指定された辞書データであることを表している。すなわち図5において「ジーン」は未検査であるのに対して、「遺伝子診断」は以前にユーザに登録の要不要を問い合わせたことがあり、その結果として登録の必要なしと指示された経緯があるということを表している。
本発明の処理は、ユーザが自然言語処理手段21に処理の対象として入力データを入力することで動作を開始する。ここではユーザが「このような遺伝子はトランスポゾンと呼ばれる」という文を入力データとして入力した場合を考える。
中央演算装置は、入力データに対して機械翻訳処理を施す前に、登録候補記憶部32から登録候補となる辞書データを取り出し、その内容を検査する。例えば図5で示される登録候補記憶部32から辞書データを取り出し、登録対象外の欄を検査することで「遺伝子診断」の辞書データは登録対象外であり、「ジーン」と「トランスポゾン」の辞書データが未検査の登録候補であることを確認する。
次に中央演算装置は自然言語処理の対象として入力された入力データと登録候補記憶部32から取り出した登録候補となる辞書データを比較し、この辞書データ中の「トランスポゾン」という文字列(対応する単語)が入力データの中に含まれることを検出する。そこで中央演算装置は「トランスポゾン」の辞書データ(対応辞書データ)を出力装置4に表示し、これを登録するかどうかをユーザに問い合わせる。
図6にユーザに対する問い合わせ画面の例を示す。ここでユーザが「トランスポゾン」の「登録する」のラジオボタン51をチェックして「実行」ボタン54を押した場合、中央演算装置は辞書に「トランスポゾン」の辞書データを登録し、登録候補記憶部32の中の「トランスポゾン」の辞書データを削除する。またユーザが「登録しない」のラジオボタン52をチェックして「実行」ボタン54を押した場合、中央演算装置は登録候補記憶部32の「トランスポゾン」の辞書データの登録対象外の欄に「対象外」であることを示す情報を書き込む。「保留」のラジオボタン53や「キャンセル」ボタン55をユーザが選択した場合、辞書登録や登録候補記憶部32の更新を行わない。またさらに「一時的に利用」というラジオボタンを付加し、表示された辞書データを辞書に登録して恒久的に利用するのではなく、テンポラリな辞書に登録してその入力データの自然言語処理にのみ利用するように動作する構成を取っても良い。
ここで図6では登録するかどうかを指定するユーザインターフェイスにラジオボタンを用いる例を示したが、図7のようにチェックボックス56を用いても良い。図7の場合、チェックボックス56がチェックされた辞書データについては、図6で「登録する」のラジオボタン51が選択された場合と同様の処理を行ない、チェックがない辞書データについては、図6で「登録しない」のラジオボタン52が選択された場合と同様の処理を行なっても良い。
その後、中央演算装置は入力された処理対象に翻訳処理を施し、その結果を出力装置4に出力する。
なお、ここでは入力データと辞書データとを比較する形態の実施例を記したが、まず入力データに自然言語処理を施して「トランスポゾン」もしくはその一部が未知語であることを検出し、この未知語部分が登録候補記憶部32から取り出した辞書データ「トランスポゾン」と重なりがあると判定された場合に限って、これを出力装置4に表示して登録するかどうかをユーザに問い合わせる形態を取っても良い。
実施形態例の自然言語処理システムによれば、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるから、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データに未知語が含まれているかどうかを判定する未知語検出機能を備え、自然言語処理手段が入力データに含まれている未知語を検出した場合に、判定手段が作動するようにしてもよい。
実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データに含まれている未知語を検出した場合に、判定手段が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の自然言語処理システムによれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の自然言語処理システムにおいて、自然言語処理手段は、辞書に登録された辞書データのみを用いて入力データに自然言語処理を施すようにしてもよい。
実施形態例の自然言語処理システムにおいて、自然言語処理手段を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳手段であるか、または入力された文字列を音声信号に変換する音声合成手段としてもよい。
実施形態例の辞書登録システムによれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
実施形態例の辞書登録システムにおいて、入力された入力データに未知語が含まれているかどうかを判定する未知語検出手段を備え、未知語検出手段が入力データに含まれている未知語を検出した場合に、判定手段が作動するようにしてもよい。
実施形態例の辞書登録システムにおいて、未知語検出手段が入力データに含まれている未知語を検出した場合に、判定手段が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の辞書登録システムによれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の辞書登録システムにおいて、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成処理で利用される辞書データとしてもよい。
実施形態例の辞書登録システムにおいて、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識処理で利用される辞書データとし、判定手段が入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい。
実施形態例の自然言語処理方法によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるから、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
実施形態例の自然言語処理方法において、入力データに未知語が含まれているかどうかを判定し、入力データに未知語が含まれていると判定した場合に、入力データと登録候補辞書データとを比較し、入力データに対応する単語が存在するかどうかを判定するようにしてもよい。
実施形態例の自然言語処理方法において、入力データに未知語が含まれていると判定した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の自然言語処理方法によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の自然言語処理方法において、自然言語処理では、辞書に登録された辞書データのみを用いるようにしてもよい。
実施形態例の自然言語処理方法において、自然言語処理を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理であるか、または入力された文字列を音声信号に変換する音声合成処理としてもよい。
実施形態例の辞書登録方法によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
実施形態例の辞書登録方法において、入力データに未知語が含まれているかどうかを判定し、入力データに未知語が含まれていると判定した場合に、入力データと登録候補辞書データとを比較し、入力データに対応する単語が存在するかどうかを判定するようにしてもよい。
実施形態例の辞書登録方法において、入力データに未知語が含まれていると判定した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の辞書登録方法によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の辞書登録方法において、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成処理で利用される辞書データとしてもよい。
実施形態例の辞書登録方法において、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識処理で利用される辞書データとし、入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい。
実施形態例の自然言語処理プログラムを記録した媒体によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうようにコンピュータを動作させるため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるから、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能が入力データに未知語が含まれているかどうかを判定する機能を備えるようにし、自然言語処理機能が入力データに未知語が含まれていると判定した場合に、判定処理をコンピュータに実行させるようにしてもよい。
実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能が入力データに未知語が含まれていると判定した場合に、判定処理が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の自然言語処理プログラムを記録した媒体によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能は、辞書に登録された辞書データのみを用いて入力データに自然言語処理を施すようにしてもよい。
実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機能を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能であるか、または入力された文字列を音声信号に変換する音声合成機能としてもよい。
実施形態例の辞書登録プログラムを記録した媒体によれば、ユーザが入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうようにコンピュータを動作させるため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができる。
実施形態例の辞書登録プログラムを記録した媒体において、コンピュータに、入力データに未知語が含まれているかどうかを判定する未知語検出処理を実行させ、未知語検出処理が入力データに未知語が含まれていると判定した場合に、判定処理をコンピュータに実行させるようにしてもよい。
実施形態例の辞書登録プログラムを記録した媒体において、未知語検出処理が入力データに未知語が含まれていると判定した場合に、判定処理が入力データの未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の辞書登録プログラムを記録した媒体によれば、入力データに未知語が存在するという致命的な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
実施形態例の辞書登録プログラムを記録した媒体において、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データであるか、または入力された文字列を音声信号に変換する音声合成機能で利用される辞書データとしてもよい。
実施形態例の辞書登録プログラムを記録した媒体において、辞書データを、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換機能で利用される辞書データであるか、または入力された音声信号を文字列に変換する音声認識機能で利用される辞書データとし、入力データと登録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい。
以上、説明したように、本発明の好適な態様で達成される第1の効果は、ユーザが個々の辞書データに対する要不要の判断を容易に下すことができることにある。その理由は、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わせを行なうためである。これにより、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良くなるためである。
また、第2の効果は、ユーザの行動を阻害せずに辞書データの要不要を通知、問い合わせすることができることにある。その理由は、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書データが含まれる場合に限って通知、問い合わせを行なうためである。これにより、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作業の中でその辞書データの要不要を判断することができるようになるためである。
本発明は、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳装置、入力された文字列を音声信号に変換する音声合成装置をコンピュータに実現するためのプログラムといった用途に適用できる。
なお、実施例ではユーザが自然言語処理の対象とするデータを入力することで動作を開始する例を示したが、例えば将来的に自然言語処理の対象とする可能性がある文書のように、直接自然言語処理の対象としないデータの入力によって動作を開始する構成を取ることで、自然言語処理で用いる辞書の作成を支援する辞書作成支援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。さらには例えば、将来的に自然言語処理の結果として得られるべき文書を入力することによって動作を開始し、この入力データと辞書データに自然言語処理の結果として格納された文字列とを比較して前記入力データに含まれる辞書データが存在するかどうかを判定する構成を取ることで、例えば機械翻訳処理や仮名漢字変換処理や音声認識処理といった自然言語処理で用いる辞書の作成を支援する辞書作成支援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。
本出願は、2006年9月7日出願に係る日本特許出願2006−242519号を基礎とし且つその優先権を主張するものであり、引用によってその開示の内容の全てを本出願の明細書中に加入する。

Claims (27)

  1. 入力データに自然言語処理を施す自然言語処理システムにおいて、
    登録候補辞書データを記憶する登録候補記憶部(32)と、
    前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段(22)と、
    前記判定手段で前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書記憶部(31)に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ手段(23)と、
    前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記辞書記憶部に登録する辞書登録手段(24)と、
    前記辞書登録手段によって前記登録候補辞書データが登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて前記入力データに自然言語処理を施し、また、前記辞書登録手段によって前記登録候補辞書データが登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて前記入力データに自然言語処理を施す自然言語処理手段(21)とを備えることを特徴とする自然言語処理システム。
  2. 前記自然言語処理手段(21)が前記入力データに含まれている未知語を検出する未知語検出機能を備え、
    前記自然言語処理手段が前記入力データに含まれている未知語を検出した場合に、前記判定手段(22)が作動することを特徴とする請求項1に記載の自然言語処理システム。
  3. 前記自然言語処理手段(21)が前記入力データに含まれている未知語を検出した場合に、前記判定手段(22)が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項2に記載の自然言語処理システム。
  4. 前記自然言語処理手段(21)が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳手段、および/または、入力された文字列を音声信号に変換する音声合成手段を含むことを特徴とする請求項1ないし請求項3のいずれかひとつに記載の自然言語処理システム。
  5. 登録候補辞書データを記憶する登録候補記憶部(32)と、
    入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定手段(22)と、
    前記判定手段で前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書記憶部(31)に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ手段(23)と、
    前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記辞書記憶部に登録する辞書登録手段(24)とを備えることを特徴とする辞書登録システム。
  6. 前記入力データに含まれている未知語を検出する未知語検出手段(25)を更に備え、
    前記未知語検出手段が前記入力データに含まれている未知語を検出した場合に、前記判定手段(22)が作動することを特徴とする請求項5に記載の辞書登録システム。
  7. 前記未知語検出手段(25)が前記入力データに含まれている未知語を検出した場合に、前記判定手段(22)が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項6に記載の辞書登録システム。
  8. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とする請求項5ないし請求項7のいずれかひとつに記載の辞書登録システム。
  9. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データ、および/または、入力された音声信号を文字列に変換する音声認識処理で利用される辞書データを含み、
    前記判定手段(22)が前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補記憶部(31)に変換結果として格納された登録候補辞書データの文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項5ないし請求項7のいずれかひとつに記載の辞書登録システム。
  10. コンピュータが入力データに自然言語処理を施す自然言語処理方法であって、前記コンピュータが、
    前記入力データと記憶装置に記憶されている登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、
    前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付け、
    入力された指示に従って前記登録候補辞書データを前記辞書に登録し、
    辞書登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて入力データに自然言語処理を施し、また、辞書登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて前記入力データに自然言語処理を施すことを特徴とする自然言語処理方法。
  11. 前記コンピュータが、
    前記入力データに未知語が含まれているかどうかを判定し、
    前記入力データに未知語が含まれていると判定した場合に、前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在するかどうかを判定することを特徴とする請求項10に記載の自然言語処理方法。
  12. 前記コンピュータが、
    前記入力データに未知語が含まれていると判定した場合に、前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項11に記載の自然言語処理方法。
  13. 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理、および/または、入力された文字列を音声信号に変換する音声合成処理を含むことを特徴とする請求項10ないし請求項12のいずれかひとつに記載の自然言語処理方法。
  14. コンピュータが記憶装置に記憶されている登録候補辞書データを辞書に登録する辞書登録方法であって、前記コンピュータが、
    入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、
    前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを前記辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付け、
    入力された指示に従って前記登録候補辞書データを前記辞書に登録することを特徴とする辞書登録方法。
  15. 前記コンピュータが、
    前記入力データに未知語が含まれているかどうかを判定し、
    前記入力データに未知語が含まれていると判定した場合に、前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在するかどうかを判定することを特徴とする請求項14に記載の辞書登録方法。
  16. 前記コンピュータが、
    前記入力データに未知語が含まれていると判定した場合に、前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項15に記載の辞書登録方法。
  17. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とする請求項14ないし請求項16のいずれかひとつに記載の辞書登録方法。
  18. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ、入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換処理で利用される辞書データで、および/または、入力された音声信号を文字列に変換する音声認識処理で利用される辞書データを含み、
    前記コンピュータが、
    前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補辞書データに変換結果として格納された文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項14ないし請求項16のいずれかひとつに記載の辞書登録方法。
  19. 制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ・プログラムであって、前記CPUに、
    登録候補辞書データを記憶装置に記憶する処理と、
    力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定処理と、
    前記判定処理で前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ処理と、
    前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する辞書登録処理と、
    前記辞書登録処理によって前記登録候補辞書データが登録された場合に限って、当該登録候補辞書データを含めた辞書データを用いて前記入力データに自然言語処理を施し、また、前記辞書登録処理によって前記登録候補辞書データが登録されなかった場合には、当該登録候補辞書データを含まない辞書データを用いて前記入力データに自然言語処理を施す処理とを実行させることを特徴とするプログラム
  20. 前記自然言語処理が、前記入力データに未知語が含まれているかどうかを判定する処理を含み、
    前記自然言語処理が前記入力データに未知語が含まれていると判定した場合に、前記判定処理を前記コンピュータに実行させることを特徴とする請求項19に記載のプログラム
  21. 前記自然言語処理が前記入力データに前記未知語が含まれていると判定した場合に、前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項20に記載のプログラム
  22. 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能、および/または、入力された文字列を音声信号に変換する音声合成機能を含むことを特徴とする請求項19ないし請求項21のいずれかひとつに記載のプログラム
  23. 制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ・プログラムであって、前記CPUに、
    登録候補辞書データを記憶する処理と、
    入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定する判定処理と、
    前記判定処理で、前記対応する単語が存在すると判定された場合に、自然言語処理に先立って前記登録候補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付ける問い合わせ処理と、
    前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記辞書に登録する処理とを実行させることを特徴とするプログラム
  24. 前記コンピュータに、前記入力データに含まれている未知語を検出する未知語検出処理を更に実行させ、
    前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、前記判定処理を前記コンピュータに実行させることを特徴とする請求項23に記載のプログラム
  25. 前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定することを特徴とする請求項24に記載のプログラム
  26. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データ、および/または、入力された文字列を音声信号に変換する音声合成機能で利用される辞書データを含むことを特徴とする請求項23ないし請求項25のいずれかひとつに記載のプログラム
  27. 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用される辞書データ、入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換機能で利用される辞書データ、および/または、入力された音声信号を文字列に変換する音声認識機能で利用される辞書データを含み、
    前記判定処理が前記入力データと前記登録候補辞書データとを比較する際には、前記入力データと前記登録候補辞書データに変換結果として格納された文字列とを比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項23ないし請求項25のいずれかひとつに記載のプログラム
JP2008533198A 2006-09-07 2007-09-06 自然言語処理システムおよび辞書登録システム Active JP5239863B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008533198A JP5239863B2 (ja) 2006-09-07 2007-09-06 自然言語処理システムおよび辞書登録システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006242519 2006-09-07
JP2006242519 2006-09-07
PCT/JP2007/067416 WO2008029881A1 (fr) 2006-09-07 2007-09-06 Système de traitement du langage naturel et système d'enregistrement de dictionnaire
JP2008533198A JP5239863B2 (ja) 2006-09-07 2007-09-06 自然言語処理システムおよび辞書登録システム

Publications (2)

Publication Number Publication Date
JPWO2008029881A1 JPWO2008029881A1 (ja) 2010-01-21
JP5239863B2 true JP5239863B2 (ja) 2013-07-17

Family

ID=39157306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008533198A Active JP5239863B2 (ja) 2006-09-07 2007-09-06 自然言語処理システムおよび辞書登録システム

Country Status (4)

Country Link
US (1) US9575953B2 (ja)
JP (1) JP5239863B2 (ja)
CN (1) CN101512518B (ja)
WO (1) WO2008029881A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140974B2 (en) 2014-12-29 2018-11-27 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
JP2009099056A (ja) * 2007-10-18 2009-05-07 Panasonic Corp 文字列受信装置、文字列転送装置、文字列送受信システム、コンテンツ受信端末向けシステムlsi、名簿共有システム、名簿共有方法およびコンテンツ推薦方法
JP5335227B2 (ja) * 2007-12-10 2013-11-06 京セラ株式会社 情報端末装置
KR101711941B1 (ko) * 2012-12-14 2017-03-03 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6447068B2 (ja) * 2014-12-05 2019-01-09 カシオ計算機株式会社 情報処理装置、情報表示方法及びプログラム
KR102166446B1 (ko) * 2018-09-28 2020-10-15 우석대학교 산학협력단 음성을 이용한 키워드 추출 방법 및 서버
US11250872B2 (en) * 2019-12-14 2022-02-15 International Business Machines Corporation Using closed captions as parallel training data for customization of closed captioning systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314274A (ja) * 1993-04-28 1994-11-08 Toshiba Corp 文書作成装置及び文書情報入力方法
JPH09161014A (ja) * 1995-12-13 1997-06-20 Oki Electric Ind Co Ltd 文字認識装置
JPH10260984A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 辞書管理方法および辞書管理装置および辞書利用システム

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
GB2199170A (en) * 1986-11-28 1988-06-29 Sharp Kk Translation apparatus
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
JPH03268062A (ja) * 1990-03-19 1991-11-28 Fujitsu Ltd 機械翻訳電子メール装置における私用単語の登録装置
JPH0594436A (ja) * 1990-10-10 1993-04-16 Fuji Xerox Co Ltd 文書処理装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5742834A (en) * 1992-06-24 1998-04-21 Canon Kabushiki Kaisha Document processing apparatus using a synonym dictionary
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
JPH07175813A (ja) * 1993-10-27 1995-07-14 Ricoh Co Ltd 複合通信処理装置
JPH07182465A (ja) * 1993-12-22 1995-07-21 Hitachi Ltd 文字認識方法
TW274135B (ja) * 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
CN1144004A (zh) * 1994-11-21 1997-02-26 欧姆龙公司 多个客户机共有的数据库系统、数据更新方法及面向文字处理装置的应用
JPH08167006A (ja) * 1994-12-13 1996-06-25 Canon Inc 自然言語処理装置及びその方法
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
JPH09114828A (ja) * 1995-10-20 1997-05-02 Sanyo Electric Co Ltd 変換候補の優先順位情報の更新方法
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP3464881B2 (ja) 1997-03-25 2003-11-10 株式会社東芝 辞書構築装置および方法
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6507678B2 (en) * 1998-06-19 2003-01-14 Fujitsu Limited Apparatus and method for retrieving character string based on classification of character
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US7254531B2 (en) * 2000-09-05 2007-08-07 Nir Einat H In-context analysis and automatic translation
JP2002108858A (ja) * 2000-09-20 2002-04-12 Internatl Business Mach Corp <Ibm> 機械翻訳方法、機械翻訳装置および記録媒体
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7254530B2 (en) * 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP3838904B2 (ja) 2001-11-22 2006-10-25 沖電気工業株式会社 辞書装置及び自然言語処理システム
JP4650920B2 (ja) * 2002-04-16 2011-03-16 富士通株式会社 情報処理装置及び情報処理プログラム
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
JP4355138B2 (ja) * 2002-12-13 2009-10-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳サーバ、コラボレーションサーバ及びプログラム
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
WO2004097664A2 (en) * 2003-05-01 2004-11-11 Axonwave Software Inc. A method and system for concept generation and management
CN100429648C (zh) * 2003-05-28 2008-10-29 洛昆多股份公司 一种文本自动分块的方法、分块器和文本到语言合成系统
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
CN100568230C (zh) * 2004-07-30 2009-12-09 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
JP2007206975A (ja) * 2006-02-01 2007-08-16 Toshiba Corp 言語情報変換装置及びその方法
US7899664B2 (en) * 2006-05-22 2011-03-01 Sharp Kabushiki Kaisha Information processing apparatus, computer, information processing system, information processing method, and program for receiving a character string and returning conversion candidates
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314274A (ja) * 1993-04-28 1994-11-08 Toshiba Corp 文書作成装置及び文書情報入力方法
JPH09161014A (ja) * 1995-12-13 1997-06-20 Oki Electric Ind Co Ltd 文字認識装置
JPH10260984A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 辞書管理方法および辞書管理装置および辞書利用システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140974B2 (en) 2014-12-29 2018-11-27 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition

Also Published As

Publication number Publication date
JPWO2008029881A1 (ja) 2010-01-21
WO2008029881A1 (fr) 2008-03-13
US9575953B2 (en) 2017-02-21
US20090281786A1 (en) 2009-11-12
CN101512518A (zh) 2009-08-19
CN101512518B (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
JP5239863B2 (ja) 自然言語処理システムおよび辞書登録システム
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP4416643B2 (ja) マルチモーダル入力方法
JP4050755B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP5653392B2 (ja) 音声翻訳装置、方法およびプログラム
WO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JP2003271389A (ja) 自然言語によるソフトウェア・オブジェクトの操作方法及びそのためのプログラム
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
US20210064640A1 (en) Information processing apparatus and information processing method
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP4192142B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2000242642A (ja) 翻訳処理方法及び翻訳処理装置
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JP2010066365A (ja) 音声認識装置、方法、及びプログラム
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JP2010039864A (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP2015072701A (ja) 翻訳装置、方法およびプログラム
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JP5298520B2 (ja) 文字入力支援装置、文書作成プログラム及び文字入力支援方法
JP2010055506A (ja) 音声翻訳装置および方法
JP2014110026A (ja) 言語処理装置、言語処理方法、及びプログラム
JP2007095099A (ja) 翻訳支援装置および翻訳支援プログラム
JPH04116763A (ja) 漢字読み変換方式

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100223

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100720

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5239863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150