JPH083815B2 - 自然言語の共起関係辞書保守方法 - Google Patents
自然言語の共起関係辞書保守方法Info
- Publication number
- JPH083815B2 JPH083815B2 JP60239779A JP23977985A JPH083815B2 JP H083815 B2 JPH083815 B2 JP H083815B2 JP 60239779 A JP60239779 A JP 60239779A JP 23977985 A JP23977985 A JP 23977985A JP H083815 B2 JPH083815 B2 JP H083815B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- occurrence relation
- relation
- pattern
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Description
【発明の詳細な説明】 〔発明の利用分野〕 本発明は自然言語の共起関係辞書保守方法に関し、特
に自然言語で表現された文または文章を構文解析する自
然言語解析システム、および、その結果を翻訳する翻訳
システムにおける、語,句等の共起関係を記述する共起
関係辞書の保守方法に関する。
に自然言語で表現された文または文章を構文解析する自
然言語解析システム、および、その結果を翻訳する翻訳
システムにおける、語,句等の共起関係を記述する共起
関係辞書の保守方法に関する。
従来、自然言語で記述された文および文章を構文解析
して、その結果を利用する装置またはシステムとして
は、自然言語による応答システム,自動インデクシング
・システム,機械翻訳システム等が研究開発されてきた
が、それらにおいては、文を認識するための構文解析が
主な研究テーマであった。ここで、構文解析とは、簡単
なものでは、定型文またはそれに可変部を付加したもの
(例えば、「切符を*枚ください。」という定型文の*
部に数字が可変部として許されるもの)と入力部が合致
すれば、「文を認識できた」とするようなものであり、
更に一般的な構文解析法を採るものでは、文の主語,述
語,修飾句等を認識することである。
して、その結果を利用する装置またはシステムとして
は、自然言語による応答システム,自動インデクシング
・システム,機械翻訳システム等が研究開発されてきた
が、それらにおいては、文を認識するための構文解析が
主な研究テーマであった。ここで、構文解析とは、簡単
なものでは、定型文またはそれに可変部を付加したもの
(例えば、「切符を*枚ください。」という定型文の*
部に数字が可変部として許されるもの)と入力部が合致
すれば、「文を認識できた」とするようなものであり、
更に一般的な構文解析法を採るものでは、文の主語,述
語,修飾句等を認識することである。
このような構文解析においては、「誰々が……と言っ
た。」というような埋め込み文の解析とか、修飾句が多
い場合の、どの句がどこを修飾しているのかの解析とか
が非常に難かしくなる。例えば、英文の構文解析を行う
場合、主語,述語,目的語の文に前置詞句が2つ付くだ
けで5通り、3つあれば14通りの解析の多義があること
がわかっている。そこで、これらの多義を解消するた
め、意味的制約条件の付加が行われる。例えば、「湖の
ほとりに建つ白壁の館」という文は、文法的には、「湖
のほとりに建つ白壁」があって、それに付随している館
かも知れないが、「“材料(白壁)の”の材料(白壁)
は所有格の主体にならない」といった規則によってこれ
を排除することができ、また、単語単位の制約規則とし
て「館は建つ」が「白壁は建たない」という規則を書く
ことによって、「“湖のほとりに”、“白壁の館”が建
っている」と解析しようとする方法が採られてきた。
た。」というような埋め込み文の解析とか、修飾句が多
い場合の、どの句がどこを修飾しているのかの解析とか
が非常に難かしくなる。例えば、英文の構文解析を行う
場合、主語,述語,目的語の文に前置詞句が2つ付くだ
けで5通り、3つあれば14通りの解析の多義があること
がわかっている。そこで、これらの多義を解消するた
め、意味的制約条件の付加が行われる。例えば、「湖の
ほとりに建つ白壁の館」という文は、文法的には、「湖
のほとりに建つ白壁」があって、それに付随している館
かも知れないが、「“材料(白壁)の”の材料(白壁)
は所有格の主体にならない」といった規則によってこれ
を排除することができ、また、単語単位の制約規則とし
て「館は建つ」が「白壁は建たない」という規則を書く
ことによって、「“湖のほとりに”、“白壁の館”が建
っている」と解析しようとする方法が採られてきた。
上述の如く、「ある単語と他の単語がある関係を通し
て文中によく現われる、または、現われることはな
い。」という性質を一般に共起関係にあるという。例え
ば、英語でいうイディオム(take a bathといった連語
やget outといった動詞の前置詞支配)や日本語の副詞
の呼応がこれにあたり、これらを言語学的に詳述したも
のとして、活用(コロケーション)辞典といったものも
ある。但し、これらは、言語以外の多くの知識や経験を
持つ人間が読むのを前提としていることや、断片的な例
文が並べてあるのみであることが多いため、構文解析の
ための規則として直ちに使えるものではない。
て文中によく現われる、または、現われることはな
い。」という性質を一般に共起関係にあるという。例え
ば、英語でいうイディオム(take a bathといった連語
やget outといった動詞の前置詞支配)や日本語の副詞
の呼応がこれにあたり、これらを言語学的に詳述したも
のとして、活用(コロケーション)辞典といったものも
ある。但し、これらは、言語以外の多くの知識や経験を
持つ人間が読むのを前提としていることや、断片的な例
文が並べてあるのみであることが多いため、構文解析の
ための規則として直ちに使えるものではない。
そこで、これらの言語学的知識を、構文解析という機
械的処理に使えるようにするため、表や規則としてファ
イル化する作業が行われている。また、それらを手助け
するシステムとして、文の中で単語がどう使われている
かを調べるため、KWIC(Key Word in Context)と称し
て、単語の前後の文を一覧表にして出力するものがあ
る。しかし、このKWICにおいても、制約条件や文法を考
え検証するのは、あくまで人間であった。
械的処理に使えるようにするため、表や規則としてファ
イル化する作業が行われている。また、それらを手助け
するシステムとして、文の中で単語がどう使われている
かを調べるため、KWIC(Key Word in Context)と称し
て、単語の前後の文を一覧表にして出力するものがあ
る。しかし、このKWICにおいても、制約条件や文法を考
え検証するのは、あくまで人間であった。
また、前述の共起関係を規則化して構文解析に利用す
る作業も、どのような共起関係を規則化(通常、表化)
するか、または、その共起関係を、構文解析のどこで、
どのように使うかを、予め決めておくため、パターンが
固定化して融通性に欠けるという問題があった。また、
共起関係の知識は、これらの表にしかないため、必要な
情報が欠けていても、それを発見し、新たな情報を追
加,修正するのは、人手によらざるを得ず、多くの工数
が必要であった。
る作業も、どのような共起関係を規則化(通常、表化)
するか、または、その共起関係を、構文解析のどこで、
どのように使うかを、予め決めておくため、パターンが
固定化して融通性に欠けるという問題があった。また、
共起関係の知識は、これらの表にしかないため、必要な
情報が欠けていても、それを発見し、新たな情報を追
加,修正するのは、人手によらざるを得ず、多くの工数
が必要であった。
本発明は上記事情に鑑みてなされたもので、その目的
とするところは、従来の技術における上述の如き問題を
解消し、共起関係辞書を利用して、自然言語解析や機械
翻訳を行うシステムにおいて、共起関係辞書内への共起
関係情報の追加,修正を人手依存度を減らして行うこと
が可能な自然言語の共起関係辞書保守方法を提供するこ
とにある。
とするところは、従来の技術における上述の如き問題を
解消し、共起関係辞書を利用して、自然言語解析や機械
翻訳を行うシステムにおいて、共起関係辞書内への共起
関係情報の追加,修正を人手依存度を減らして行うこと
が可能な自然言語の共起関係辞書保守方法を提供するこ
とにある。
本発明の上述の目的は、ユーザに入力を行わせるため
の入力手段と、ユーザに判断や確認を行わせるための表
示手段と、全体の制御を行うための処理手段と、各種情
報を格納するための記憶手段とを有する自然言語の共起
関係辞書保守システムにおいて、前記記憶手段を、自然
言語の解析に必要な情報を格納する解析用規則・辞書フ
ァイル,自然言語で記述された文の単語の並びが意味的
に正しいか否かを示す共起関係情報を格納する共起関係
辞書ファイル,共起関係の可能性のある構文関係を示す
共起関係パターンを格納する共起関係パターンファイ
ル,例文を収集する例文ファイルから構成するととも
に、前記処理手段内に、共起関係にあると考えられる共
起関係の候補を格納する記憶部を設けておき、前記共起
関係パターンファイル内の共起関係パターンと文の属す
る分野が指定されたとき、前記例文ファイルから当該分
野に属する例文テキストを収集するステップと、前記解
析用規則・辞書ファイルの情報を参照して前記例文テキ
ストを解析して、指定された共起関係パターンに属する
共起関係候補を抽出して前記記憶部に格納するステップ
と、共起関係候補の出現頻度をカウントし、予め定めら
れた閾値条件を越えて出現した共起関係候補を前記共起
関係辞書ファイルに出力するステップとを有することを
特徴とする自然言語の共起関係辞書保守方法によって達
成される。
の入力手段と、ユーザに判断や確認を行わせるための表
示手段と、全体の制御を行うための処理手段と、各種情
報を格納するための記憶手段とを有する自然言語の共起
関係辞書保守システムにおいて、前記記憶手段を、自然
言語の解析に必要な情報を格納する解析用規則・辞書フ
ァイル,自然言語で記述された文の単語の並びが意味的
に正しいか否かを示す共起関係情報を格納する共起関係
辞書ファイル,共起関係の可能性のある構文関係を示す
共起関係パターンを格納する共起関係パターンファイ
ル,例文を収集する例文ファイルから構成するととも
に、前記処理手段内に、共起関係にあると考えられる共
起関係の候補を格納する記憶部を設けておき、前記共起
関係パターンファイル内の共起関係パターンと文の属す
る分野が指定されたとき、前記例文ファイルから当該分
野に属する例文テキストを収集するステップと、前記解
析用規則・辞書ファイルの情報を参照して前記例文テキ
ストを解析して、指定された共起関係パターンに属する
共起関係候補を抽出して前記記憶部に格納するステップ
と、共起関係候補の出現頻度をカウントし、予め定めら
れた閾値条件を越えて出現した共起関係候補を前記共起
関係辞書ファイルに出力するステップとを有することを
特徴とする自然言語の共起関係辞書保守方法によって達
成される。
以下、本発明の実施例を、図面に基づいて詳細に説明
する。
する。
前述の如く、本発明は、自然言語解析システムまたは
機械翻訳システムにおいて、構文解析の対象となる文や
文章と同種または同分野の文を集めた例文テキスト集
と、これらを解析する文法(または、文法群)に必要な
共起関係パターンとを用意し、この共起関係パターンに
従って例文を調べることにより、共起関係パターンの内
から、有効な共起関係と、その共起関係が成立する単語
等の組み合わせを抽出して、これを共起関係辞書に登録
することにより、質の高い自然言語解析および生成を可
能にするとともに、共起関係辞書の作成ないしは保守自
体を簡便に行えるようにするものである。
機械翻訳システムにおいて、構文解析の対象となる文や
文章と同種または同分野の文を集めた例文テキスト集
と、これらを解析する文法(または、文法群)に必要な
共起関係パターンとを用意し、この共起関係パターンに
従って例文を調べることにより、共起関係パターンの内
から、有効な共起関係と、その共起関係が成立する単語
等の組み合わせを抽出して、これを共起関係辞書に登録
することにより、質の高い自然言語解析および生成を可
能にするとともに、共起関係辞書の作成ないしは保守自
体を簡便に行えるようにするものである。
第2図は、本発明の一実施例に係る共起関係辞書保守
装置の構成を示すブロック図である。図において、1は
ユーザに共起関係の確認や判断をさせる際に、その入力
を行わせるためのキーホード、2はユーザに共起関係の
確認や判断をさせる際に、必要な情報をユーザに表示す
るための表示装置、3は本装置全体の制御を行うCPU、
4は各種情報を格納しているメインメモリ、5は自然言
語の解析(生成)を行う際、必要となる情報を格納して
いる辞書ファイル、6は自然言語の解析(生成)のため
の規則を格納している解析(生成)規則ファイル、7は
自然言語の解析(生成)を行う際、どのような共起関係
が利用されるかを表化した共起関係パターンを格納して
いる共起関係ファイル、8は対象となる例文を収集した
例文テキストファイル、また、9は上述の共起関係パタ
ーンに従って例文テキストファイルを調べることによっ
て作られる共起関係情報を格納する共起関係辞書を示し
ている。
装置の構成を示すブロック図である。図において、1は
ユーザに共起関係の確認や判断をさせる際に、その入力
を行わせるためのキーホード、2はユーザに共起関係の
確認や判断をさせる際に、必要な情報をユーザに表示す
るための表示装置、3は本装置全体の制御を行うCPU、
4は各種情報を格納しているメインメモリ、5は自然言
語の解析(生成)を行う際、必要となる情報を格納して
いる辞書ファイル、6は自然言語の解析(生成)のため
の規則を格納している解析(生成)規則ファイル、7は
自然言語の解析(生成)を行う際、どのような共起関係
が利用されるかを表化した共起関係パターンを格納して
いる共起関係ファイル、8は対象となる例文を収集した
例文テキストファイル、また、9は上述の共起関係パタ
ーンに従って例文テキストファイルを調べることによっ
て作られる共起関係情報を格納する共起関係辞書を示し
ている。
第3図は、第2図に示したメインメモリ4の割付け配
置図である。メインメモリ4は、共起関係辞書を作成・
保守するためのアルゴリズムを実行する処理プログラム
41,共起関係ファイル7中の共起関係パターンに従い、
共起関係にあるのではないかと考えられる共起関係の候
補を格納しておく共起関係候補テーブル42,選択した共
起関係パターンに反する候補が出てきた場合等に、ユー
ザの判断を求める際、表示装置2に表示する内容を格納
しておく共起関係表示エリア43,共起関係パターンに従
って検討を行う際に、その項となる単語または単語のコ
ード等が、例文テキストファイル8中の例文に対してど
のように使われているかを、実際に既にある解析(生
成)規則と辞書に従って構文解析(生成)するための解
析(生成)プログラム44,解析(生成)の際、例文が解
析(生成)されていく中間過程を保持しておく中間語テ
ーブル45,処理プログラムが、処理の途中で、一時的な
情報を格納しておくためのワークレジスタ46を有する。
置図である。メインメモリ4は、共起関係辞書を作成・
保守するためのアルゴリズムを実行する処理プログラム
41,共起関係ファイル7中の共起関係パターンに従い、
共起関係にあるのではないかと考えられる共起関係の候
補を格納しておく共起関係候補テーブル42,選択した共
起関係パターンに反する候補が出てきた場合等に、ユー
ザの判断を求める際、表示装置2に表示する内容を格納
しておく共起関係表示エリア43,共起関係パターンに従
って検討を行う際に、その項となる単語または単語のコ
ード等が、例文テキストファイル8中の例文に対してど
のように使われているかを、実際に既にある解析(生
成)規則と辞書に従って構文解析(生成)するための解
析(生成)プログラム44,解析(生成)の際、例文が解
析(生成)されていく中間過程を保持しておく中間語テ
ーブル45,処理プログラムが、処理の途中で、一時的な
情報を格納しておくためのワークレジスタ46を有する。
共起関係辞書9は、第6図にその内容の一例を示した
如く、パターン番号,共起関係,件数(または、確から
しさ)から構成される。ここで、パターン番号「1」
は、当該共起関係が前記「動詞と目的語」の共起関係パ
ターンに属するものであることを示し、同様に、パター
ン番号「2」は、「副詞と動詞」の共起関係パターン、
パターン番号「3」は、「主語と主動詞」の共起関係パ
ターン、パターン番号「50」は、「副詞と助動詞語尾」
の共起関係パターン(日本語特有)、パターン番号「5
1」は、「動詞と前置詞と前置詞目的語」の共起関係パ
ターン(欧米語特有)に属するものであることを示して
いる。なお、件数または確からしさは、例文中に出現し
た回数を示している。
如く、パターン番号,共起関係,件数(または、確から
しさ)から構成される。ここで、パターン番号「1」
は、当該共起関係が前記「動詞と目的語」の共起関係パ
ターンに属するものであることを示し、同様に、パター
ン番号「2」は、「副詞と動詞」の共起関係パターン、
パターン番号「3」は、「主語と主動詞」の共起関係パ
ターン、パターン番号「50」は、「副詞と助動詞語尾」
の共起関係パターン(日本語特有)、パターン番号「5
1」は、「動詞と前置詞と前置詞目的語」の共起関係パ
ターン(欧米語特有)に属するものであることを示して
いる。なお、件数または確からしさは、例文中に出現し
た回数を示している。
以下、上述の如く構成された本実施例の処理動作を説
明する。
明する。
まず、ユーザが、ある分野の文章の解析や翻訳に際
し、その分野に特有の言いまわしや訳語の対を求めたい
といった場合には、キーボード1から、例えば、開始キ
ーを押下して、処理プログラム41を起動する。
し、その分野に特有の言いまわしや訳語の対を求めたい
といった場合には、キーボード1から、例えば、開始キ
ーを押下して、処理プログラム41を起動する。
第1図は、本実施例における、処理プログラム41の処
理動作を示すフローチャートである。処理プログラム41
は、共起関係ファイル7から、共起関係の可能性のある
パターンを選択する(ステップ101)。このパターンに
は、言語に依存する部分と、構文解析の対象となる解析
木または中間語に依存する部分とがある。第4図に、言
語に依存する部分の一例を示す。ここで、「動詞と目的
語」とか「副詞と主動詞」というのは、殆んどの言語に
共通のものであり、これに対して、「副詞と助動詞語
尾」(日本語)とか「動詞と前置詞と前置詞目的語」
(欧米語)は、言語に依存する共起関係パターンと考え
られる。なお、この共起関係は、構文解析(生成)規則
に対し、その対象となる中間語の項間の関係を表わす
こと、構文解析の際の多義解消やこなれた訳を出力す
ること等に利用されるという点で、重要な係わりを有す
る。
理動作を示すフローチャートである。処理プログラム41
は、共起関係ファイル7から、共起関係の可能性のある
パターンを選択する(ステップ101)。このパターンに
は、言語に依存する部分と、構文解析の対象となる解析
木または中間語に依存する部分とがある。第4図に、言
語に依存する部分の一例を示す。ここで、「動詞と目的
語」とか「副詞と主動詞」というのは、殆んどの言語に
共通のものであり、これに対して、「副詞と助動詞語
尾」(日本語)とか「動詞と前置詞と前置詞目的語」
(欧米語)は、言語に依存する共起関係パターンと考え
られる。なお、この共起関係は、構文解析(生成)規則
に対し、その対象となる中間語の項間の関係を表わす
こと、構文解析の際の多義解消やこなれた訳を出力す
ること等に利用されるという点で、重要な係わりを有す
る。
このようにして、共起関係パターンの候補が選択され
ると、この候補は、共起関係候補テーブル42に、パター
ン番号として格納される。この際、処理プログラム41
は、更に、この候補そのものを処理対象とするか、更に
限定したものを処理対象とするかを、独自に決めるか、
ユーザの応答より決めるかして、共起関係パターンの
「仮説」を設定することもできる(これを、ステップ10
2とした)。
ると、この候補は、共起関係候補テーブル42に、パター
ン番号として格納される。この際、処理プログラム41
は、更に、この候補そのものを処理対象とするか、更に
限定したものを処理対象とするかを、独自に決めるか、
ユーザの応答より決めるかして、共起関係パターンの
「仮説」を設定することもできる(これを、ステップ10
2とした)。
例えば、「動詞と目的語」という共起関係パターンの
候補を考える際に、これから「動詞‘ひく’と目的語」
として、‘ひく’という単語(動詞)の用法を調べると
か、「動詞と目的語‘値段’」として、‘値段’を目的
語とする動詞の用法を調べるという場合が、これ(仮
説)に相当する。
候補を考える際に、これから「動詞‘ひく’と目的語」
として、‘ひく’という単語(動詞)の用法を調べると
か、「動詞と目的語‘値段’」として、‘値段’を目的
語とする動詞の用法を調べるという場合が、これ(仮
説)に相当する。
これまでのステップにより、どのような共起関係仮説
を調べるかが決まると、処理プログラム41は、次に、そ
の仮説中のある項に着目して、その項が含まれる例文を
選び出す(ステップ103)。例えば、上に示した「動詞
‘ひく’と目的語」の場合、‘ひく’に注目すれば、こ
の単語を含む例文を、例文テキストファイル8から選び
出す。
を調べるかが決まると、処理プログラム41は、次に、そ
の仮説中のある項に着目して、その項が含まれる例文を
選び出す(ステップ103)。例えば、上に示した「動詞
‘ひく’と目的語」の場合、‘ひく’に注目すれば、こ
の単語を含む例文を、例文テキストファイル8から選び
出す。
次に、上のステップで選び出された例文に対して、各
文毎に、上記共起関係仮説が成立するす否かを検定する
ため、各文を調べる(ステップ104)。その際、品詞や
構文的役割子(名詞,助詞,主語,目的語等)が共起関
係の項に含まれる場合には、解析(生成)プログラム44
が起動され、解析(生成)用辞書ファイル5と解析(生
成)用規則ファイル6を利用して解析を行い、その結果
を中間語テーブル45に格納するが、その処理の方式また
は結果の出力形態は、特に限定される必要はない。例え
ば、本発明者等による特開昭56−138586号公報に開示さ
れた機械翻訳方式による構文解析と中間語表現によれば
よい。
文毎に、上記共起関係仮説が成立するす否かを検定する
ため、各文を調べる(ステップ104)。その際、品詞や
構文的役割子(名詞,助詞,主語,目的語等)が共起関
係の項に含まれる場合には、解析(生成)プログラム44
が起動され、解析(生成)用辞書ファイル5と解析(生
成)用規則ファイル6を利用して解析を行い、その結果
を中間語テーブル45に格納するが、その処理の方式また
は結果の出力形態は、特に限定される必要はない。例え
ば、本発明者等による特開昭56−138586号公報に開示さ
れた機械翻訳方式による構文解析と中間語表現によれば
よい。
具体的には、前述の「動詞‘ひく’と目的語」の場合
は、動詞‘ひく’の現われる例文を構文解析し、その解
析結果から、‘ひく’の目的語となるものをまとめる。
その結果の一例を、第5図に示す。機械翻訳に使われる
場合は、更に訳文を解析してその訳語についても調べる
ことができる。第5図の右欄はそのような場合で、訳が
一意に決まった場合を示している。なお、これらの解析
結果はワークレジスタ46に格納される。
は、動詞‘ひく’の現われる例文を構文解析し、その解
析結果から、‘ひく’の目的語となるものをまとめる。
その結果の一例を、第5図に示す。機械翻訳に使われる
場合は、更に訳文を解析してその訳語についても調べる
ことができる。第5図の右欄はそのような場合で、訳が
一意に決まった場合を示している。なお、これらの解析
結果はワークレジスタ46に格納される。
次に、処理プログラム41は、上で得られた結果を、共
起関係辞書9に登録するか否かを判定する(ステップ10
5)。この判定の方法は、件数の多少や、第5図の行の
ちらばりによればよい。但し、ここでは、前述の共起関
係仮説中の項のうち、目的語というような構文的役割子
は共起関係辞書9には登録せず、その役割子を満たす単
語や分類コードを項とする仮説を作るため、一時的に存
在するものと解釈する。すなわち、前述の仮説「動詞
‘ひく’と目的語」の場合、目的語にあたる単語が第5
図に示すように収集されると、仮説の別な解釈(別な仮
説)ができるか否かを調べる(ステップ106)。
起関係辞書9に登録するか否かを判定する(ステップ10
5)。この判定の方法は、件数の多少や、第5図の行の
ちらばりによればよい。但し、ここでは、前述の共起関
係仮説中の項のうち、目的語というような構文的役割子
は共起関係辞書9には登録せず、その役割子を満たす単
語や分類コードを項とする仮説を作るため、一時的に存
在するものと解釈する。すなわち、前述の仮説「動詞
‘ひく’と目的語」の場合、目的語にあたる単語が第5
図に示すように収集されると、仮説の別な解釈(別な仮
説)ができるか否かを調べる(ステップ106)。
ここで、「別な解釈」としては、例えば、第5図の各
行そのものを仮説としてもよいし、単語を分類コード毎
に集めて、仮説を抽象化してもよい。例えば、前者の
「各行そのものを仮説とする」場合は、「風邪をひく」
という共起関係が成立するとして、「風邪を食べる」と
いう文が入力された場合に、これが共起関係辞書にない
ことから異常な文であると判定することに使われる。
行そのものを仮説としてもよいし、単語を分類コード毎
に集めて、仮説を抽象化してもよい。例えば、前者の
「各行そのものを仮説とする」場合は、「風邪をひく」
という共起関係が成立するとして、「風邪を食べる」と
いう文が入力された場合に、これが共起関係辞書にない
ことから異常な文であると判定することに使われる。
また、後者の「仮説を抽象化する」場合は、予め単語
間に階層構造(シソーラス)を設定し、その分類コード
(意味コードとみることもできる)を解析(生成)用辞
書ファイル5の各単語の辞書内容に格納しておき、その
階層上の親子関係が上のもので仮説を書き直すことによ
り、仮説をまとめて大きな(上位概念の)仮説を作るこ
とができる。具体的には、「粉をひく」,「豆をひく」
いった仮説があった場合に、粉や豆の上位概念として
「穀物をひく」という共起関係仮説を作る。この際、仮
説の項は、単語としての「穀物」でなく、概念の分類コ
ードとしての「穀物」であることが望ましい。
間に階層構造(シソーラス)を設定し、その分類コード
(意味コードとみることもできる)を解析(生成)用辞
書ファイル5の各単語の辞書内容に格納しておき、その
階層上の親子関係が上のもので仮説を書き直すことによ
り、仮説をまとめて大きな(上位概念の)仮説を作るこ
とができる。具体的には、「粉をひく」,「豆をひく」
いった仮説があった場合に、粉や豆の上位概念として
「穀物をひく」という共起関係仮説を作る。この際、仮
説の項は、単語としての「穀物」でなく、概念の分類コ
ードとしての「穀物」であることが望ましい。
ステップ106で別な解釈が可能な場合、その仮説を作
り(ステップ107)、再度、その仮説が共起関係辞書9
に登録すべきものか否か(ステップ105)を判断する。
ある仮説が、共起関係辞書9に登録すべきものと判定さ
れた場合には、その共起関係が既に共起関係辞書9に登
録されていないか、また、その上位または下位の概念を
持った共起関係が既に共起関係辞書9に登録されていな
いかを調べる(ステップ109)。ない場合には、この仮
説を共起関係辞書9に新たに登録する(ステップ11
0)。
り(ステップ107)、再度、その仮説が共起関係辞書9
に登録すべきものか否か(ステップ105)を判断する。
ある仮説が、共起関係辞書9に登録すべきものと判定さ
れた場合には、その共起関係が既に共起関係辞書9に登
録されていないか、また、その上位または下位の概念を
持った共起関係が既に共起関係辞書9に登録されていな
いかを調べる(ステップ109)。ない場合には、この仮
説を共起関係辞書9に新たに登録する(ステップ11
0)。
また、同一のものが既に登録されている場合で、共起
関係辞書9に出現頻度や確からしさの情報も格納されて
いる場合には、その値を更新するのみでよく、単にパタ
ーンのみが登録されている場合は、登録をしない。一
方、上位概念や下位概念で既に共起関係が登録されてい
る場合は、上位概念でまとめてしまうか、また、その特
殊な場合として、両方を登録する(ステップ111)。実
際、どちらにするかは、構文解析(生成)を行うシステ
ムとの関係で決めればよい。
関係辞書9に出現頻度や確からしさの情報も格納されて
いる場合には、その値を更新するのみでよく、単にパタ
ーンのみが登録されている場合は、登録をしない。一
方、上位概念や下位概念で既に共起関係が登録されてい
る場合は、上位概念でまとめてしまうか、また、その特
殊な場合として、両方を登録する(ステップ111)。実
際、どちらにするかは、構文解析(生成)を行うシステ
ムとの関係で決めればよい。
共起関係辞書9に登録できず、かつ、別な解釈もでき
ない場合には、まだ仮説があるか否かを調べ(ステップ
108)、ある場合は、再度、ステップ102の仮説の検定に
戻る。また、登録することはできるが、上位概念や下位
概念により新たな仮説を設ける場合で、第5図の行の間
をまとめるのみでは結果が得られず、例文テキストファ
イル8全体にわたって再度検定を行った方がよいと判断
される場合も、再度、ステップ102の仮説の検定に戻
る。これを繰り返して、新たな仮説がなくなれば、処理
を終了する。
ない場合には、まだ仮説があるか否かを調べ(ステップ
108)、ある場合は、再度、ステップ102の仮説の検定に
戻る。また、登録することはできるが、上位概念や下位
概念により新たな仮説を設ける場合で、第5図の行の間
をまとめるのみでは結果が得られず、例文テキストファ
イル8全体にわたって再度検定を行った方がよいと判断
される場合も、再度、ステップ102の仮説の検定に戻
る。これを繰り返して、新たな仮説がなくなれば、処理
を終了する。
第6図は、本実施例に係る共起関係辞書保守装置によ
り作成された共起関係辞書9の内容の一例を示す図であ
り、第3図の処理プログラム41を、CPU3により処理実行
して得られたものである。
り作成された共起関係辞書9の内容の一例を示す図であ
り、第3図の処理プログラム41を、CPU3により処理実行
して得られたものである。
上述の実施例によれば、自然言語の解析や機械翻訳の
際に必要になるであろう共起関係を人間が予め想定し、
かつ、そのデータを人手によって例文にあたって設定
し、検定するといった手間を省き、言語や構文解析(生
成)の中間語が決まれば、それに必要と考えられる共起
関係を自動的に抽出したり、新たに例文が追加されたと
か、中間語が変更されたとかした場合でも、自動的に共
起関係辞書を保守することが可能になる。
際に必要になるであろう共起関係を人間が予め想定し、
かつ、そのデータを人手によって例文にあたって設定
し、検定するといった手間を省き、言語や構文解析(生
成)の中間語が決まれば、それに必要と考えられる共起
関係を自動的に抽出したり、新たに例文が追加されたと
か、中間語が変更されたとかした場合でも、自動的に共
起関係辞書を保守することが可能になる。
また、ユーザの指示により、不必要と考えられる共起
関係を生成しないようにして、効率化を図ることがで
き、その場合でも、初めから人手による場合に比べて、
調べるべき範囲の共起関係については、抜けのない共起
関係辞書を、高速に作ることが可能である。
関係を生成しないようにして、効率化を図ることがで
き、その場合でも、初めから人手による場合に比べて、
調べるべき範囲の共起関係については、抜けのない共起
関係辞書を、高速に作ることが可能である。
更に、上述の実施例では、主に和文を解析するための
共起関係を抽出する場合と、英日機械翻訳の際に、和文
生成の際利用する共起関係を抽出する例を示したが、英
文を解析する場合や、英語や日本語以外の言語や言語対
に対して、その共起関係を抽出する場合にも使用するこ
とできるものである。
共起関係を抽出する場合と、英日機械翻訳の際に、和文
生成の際利用する共起関係を抽出する例を示したが、英
文を解析する場合や、英語や日本語以外の言語や言語対
に対して、その共起関係を抽出する場合にも使用するこ
とできるものである。
なお、上記実施例は本発明の一例を示したものであ
り、本発明はこれに限定されるべきものではないことは
言うまでもないことである。
り、本発明はこれに限定されるべきものではないことは
言うまでもないことである。
例えば、処理プログラム41の起動は、機械翻訳業務に
おいて新しい言語対や新しい分野の文献を翻訳対象とし
た場合や、新聞・雑誌等定期的に例文テキストファイル
8が追加・補正される場合に、その構文解析(生成)に
使われる共起関係情報を収集・保守する際、ユーザの指
示または時間等による定期的な自動指示により行われて
もよい。
おいて新しい言語対や新しい分野の文献を翻訳対象とし
た場合や、新聞・雑誌等定期的に例文テキストファイル
8が追加・補正される場合に、その構文解析(生成)に
使われる共起関係情報を収集・保守する際、ユーザの指
示または時間等による定期的な自動指示により行われて
もよい。
また、前述の、ステップ101における共起関係パター
ンの選択は、処理プログラム41が、共起関係ファイル7
の一覧表を共起関係表示エリア43に格納して、表示装置
2に共起関係パターンの候補を表示することにより、ユ
ーザに選択させる方法が一般的であるが、この他にも、
ユーザの指示に基づいて、ユーザが確かめたい共起関係
パターンの候補を受付ける方法等、ユーザによる指示に
よることももちろん可能である。
ンの選択は、処理プログラム41が、共起関係ファイル7
の一覧表を共起関係表示エリア43に格納して、表示装置
2に共起関係パターンの候補を表示することにより、ユ
ーザに選択させる方法が一般的であるが、この他にも、
ユーザの指示に基づいて、ユーザが確かめたい共起関係
パターンの候補を受付ける方法等、ユーザによる指示に
よることももちろん可能である。
更に、共起関係としては、前述の如く、構文解析を必
要とするものばかりでなく、「ある名詞が、ある分野
で、特殊な訳語で使われるか」といったことを調べると
きにも、構文解析をきっちりやらずに、原文とその訳文
とを対比させて、可能性のある訳語のうち、どれが使わ
れているかを調べるといった形で応用することも可能で
ある。あるいは、訳語を全く想定せず、訳文同志が共通
語を持つものをまとめることにより、1,2個のよく使わ
れる訳語を得るといった使い方も、可能である。
要とするものばかりでなく、「ある名詞が、ある分野
で、特殊な訳語で使われるか」といったことを調べると
きにも、構文解析をきっちりやらずに、原文とその訳文
とを対比させて、可能性のある訳語のうち、どれが使わ
れているかを調べるといった形で応用することも可能で
ある。あるいは、訳語を全く想定せず、訳文同志が共通
語を持つものをまとめることにより、1,2個のよく使わ
れる訳語を得るといった使い方も、可能である。
以上、詳細に説明した如く、本発明によれば、共起関
係辞書を利用して、自然言語解析や機械翻訳を行うシス
テムにおいて、共起関係辞書内への共起関係情報の追
加,修正を人手依存度を減らして行うことが可能な自然
言語の共起関係辞書保守方法を実現できるという顕著な
効果を奏するものである。
係辞書を利用して、自然言語解析や機械翻訳を行うシス
テムにおいて、共起関係辞書内への共起関係情報の追
加,修正を人手依存度を減らして行うことが可能な自然
言語の共起関係辞書保守方法を実現できるという顕著な
効果を奏するものである。
第1図は本発明の一実施例に係る共起関係辞書保守装置
における、処理プログラム41の処理動作を示すフローチ
ャート、第2図は実施例に係る共起関係辞書保守装置の
構成を示すブロック図、第3図は第2図に示した構成に
おけメインメモリ4の割付け配置図、第4図は第2図に
示した構成における共起関係ファイル7の内容の一例を
示す図、第5は例文テキストファイルにあたって共起関
係の仮説を検定した際の結果の一例を示す図、第6は実
施例に係る共起関係辞書保守装置により作成された共起
関係辞書9の内容の一例を示す図である。 3:CPU、4:メインメモリ、41:処理プログラム、42:共起
関係候補テーブル、7:共起関係ファイル、8:例文テキス
トファイル、9:共起関係辞書。
における、処理プログラム41の処理動作を示すフローチ
ャート、第2図は実施例に係る共起関係辞書保守装置の
構成を示すブロック図、第3図は第2図に示した構成に
おけメインメモリ4の割付け配置図、第4図は第2図に
示した構成における共起関係ファイル7の内容の一例を
示す図、第5は例文テキストファイルにあたって共起関
係の仮説を検定した際の結果の一例を示す図、第6は実
施例に係る共起関係辞書保守装置により作成された共起
関係辞書9の内容の一例を示す図である。 3:CPU、4:メインメモリ、41:処理プログラム、42:共起
関係候補テーブル、7:共起関係ファイル、8:例文テキス
トファイル、9:共起関係辞書。
Claims (4)
- 【請求項1】ユーザに入力を行わせるための入力手段
と、ユーザに判断や確認を行わせるための表示手段と、
全体の制御を行うための処理手段と、各種情報を格納す
るための記憶手段とを有する自然言語の共起関係辞書保
守システムにおいて、前記記憶手段を、自然言語の解析
に必要な情報を格納する解析用規則・辞書ファイル,自
然言語で記述された文の単語の並びが意味的に正しいか
否かを示す共起関係情報を格納する共起関係辞書ファイ
ル,共起関係の可能性のある構文関係を示す共起関係パ
ターンを格納する共起関係パターンファイル,例文を収
集する例文ファイルから構成するとともに、前記処理手
段内に、共起関係にあると考えられる共起関係の候補を
格納する記憶部を設けておき、前記共起関係パターンフ
ァイル内の共起関係パターンと文の属する分野が指定さ
れたとき、前記例文ファイルから当該分野に属する例文
テキストを収集するステップと、前記解析用規則・辞書
ファイルの情報を参照して前記例文テキストを解析し
て、指定された共起関係パターンに属する共起関係候補
を抽出して前記記憶部に格納するステップと、共起関係
候補の出現頻度をカウントし、予め定められた閾値条件
を越えて出現した共起関係候補を前記共起関係辞書ファ
イルに出力するステップとを有することを特徴とする自
然言語の共起関係辞書保守方法。 - 【請求項2】特許請求の範囲第1項記載の各ステップに
加えて、前記収集した例文テキストから抽出した、指定
された共起関係パターンに属する共起関係候補が、予め
定められた閾値条件を越えない場合には、順次、次の、
指定された共起関係パターンに属する共起関係候補を抽
出し、閾値条件との比較を行うステップを有することを
特徴とする自然言語の共起関係辞書保守方法。 - 【請求項3】特許請求の範囲第1項または第2項記載の
各ステップに加えて、前記収集した例文テキストから抽
出した、指定された共起関係パターンに属する共起関係
の上位または下位概念の共起関係が、予め前記共起関係
に登録されている場合には、上位概念の共起関係でまと
めるステップを有することを特徴とする自然言語の共起
関係辞書保守方法。 - 【請求項4】特許請求の範囲第1項〜第3項のいずれか
に記載の各ステップに加えて、前記収集した例文テキス
トから抽出した、指定された共起関係パターンを更に限
定して得られる共起関係パターンを、新たな共起関係パ
ターンとするステップを有することを特徴とする自然言
語の共起関係辞書保守方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60239779A JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
US06/922,889 US4942526A (en) | 1985-10-25 | 1986-10-24 | Method and system for generating lexicon of cooccurrence relations in natural language |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60239779A JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6299865A JPS6299865A (ja) | 1987-05-09 |
JPH083815B2 true JPH083815B2 (ja) | 1996-01-17 |
Family
ID=17049766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60239779A Expired - Lifetime JPH083815B2 (ja) | 1985-10-25 | 1985-10-25 | 自然言語の共起関係辞書保守方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US4942526A (ja) |
JP (1) | JPH083815B2 (ja) |
Families Citing this family (111)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2664915B2 (ja) * | 1988-01-12 | 1997-10-22 | 株式会社日立製作所 | 情報検索システム |
JP2831647B2 (ja) * | 1988-03-31 | 1998-12-02 | 株式会社東芝 | 機械翻訳システム |
JPH0242572A (ja) * | 1988-08-03 | 1990-02-13 | Hitachi Ltd | 共起関係辞書生成保守方法 |
NL8900587A (nl) * | 1989-03-10 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
JPH02240769A (ja) * | 1989-03-14 | 1990-09-25 | Canon Inc | 自然言語文生成装置 |
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
JPH03129469A (ja) * | 1989-10-14 | 1991-06-03 | Canon Inc | 自然言語処理装置 |
JP2814634B2 (ja) * | 1989-12-29 | 1998-10-27 | 松下電器産業株式会社 | 機械翻訳装置 |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5369575A (en) * | 1992-05-15 | 1994-11-29 | International Business Machines Corporation | Constrained natural language interface for a computer system |
US5541838A (en) * | 1992-10-26 | 1996-07-30 | Sharp Kabushiki Kaisha | Translation machine having capability of registering idioms |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
JPH06259420A (ja) * | 1993-03-10 | 1994-09-16 | Fuji Xerox Co Ltd | 文章編集支援装置 |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
US5454106A (en) * | 1993-05-17 | 1995-09-26 | International Business Machines Corporation | Database retrieval system using natural language for presenting understood components of an ambiguous query on a user interface |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
JP2817776B2 (ja) * | 1995-05-25 | 1998-10-30 | 日本電気株式会社 | 単語変換装置 |
US5989835A (en) | 1997-02-27 | 1999-11-23 | Cellomics, Inc. | System for cell-based screening |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
KR100397602B1 (ko) * | 1996-10-30 | 2003-10-17 | 삼성전자주식회사 | 좌우 파싱법에서의 애매성 해결 방법 |
US5991712A (en) * | 1996-12-05 | 1999-11-23 | Sun Microsystems, Inc. | Method, apparatus, and product for automatic generation of lexical features for speech recognition systems |
US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
WO1999063456A1 (fr) * | 1998-06-04 | 1999-12-09 | Matsushita Electric Industrial Co., Ltd. | Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme |
US6694055B2 (en) | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US9037451B2 (en) * | 1998-09-25 | 2015-05-19 | Rpx Corporation | Systems and methods for multiple mode voice and data communications using intelligently bridged TDM and packet buses and methods for implementing language capabilities using the same |
ATE292822T1 (de) | 1998-11-13 | 2005-04-15 | Cellomics Inc | Verfahren und system zum effizienten gewinnen und speichern von experimentellen daten |
US6731802B1 (en) | 2000-01-14 | 2004-05-04 | Microsoft Corporation | Lattice and method for identifying and normalizing orthographic variations in Japanese text |
US6968308B1 (en) | 1999-11-17 | 2005-11-22 | Microsoft Corporation | Method for segmenting non-segmented text using syntactic parse |
WO2001055951A2 (en) | 2000-01-25 | 2001-08-02 | Cellomics, Inc. | Method and system for automated inference of physico-chemical interaction knowl edge |
CA2307404A1 (en) * | 2000-05-02 | 2001-11-02 | Provenance Systems Inc. | Computer readable electronic records automated classification system |
US6768982B1 (en) | 2000-09-06 | 2004-07-27 | Cellomics, Inc. | Method and system for creating and using knowledge patterns |
US6813615B1 (en) | 2000-09-06 | 2004-11-02 | Cellomics, Inc. | Method and system for interpreting and validating experimental data with automated reasoning |
JP2002269114A (ja) * | 2001-03-14 | 2002-09-20 | Kousaku Ookubo | 知識データベース及び知識データベースの構築方法 |
US7177792B2 (en) * | 2001-05-31 | 2007-02-13 | University Of Southern California | Integer programming decoder for machine translation |
AU2002316581A1 (en) | 2001-07-03 | 2003-01-21 | University Of Southern California | A syntax-based statistical translation model |
US7003445B2 (en) * | 2001-07-20 | 2006-02-21 | Microsoft Corporation | Statistically driven sentence realizing method and apparatus |
AU2003269808A1 (en) * | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
JP3826883B2 (ja) * | 2002-12-26 | 2006-09-27 | カシオ計算機株式会社 | 情報表示制御装置及びプログラム |
AU2003288750A1 (en) * | 2002-12-26 | 2004-07-22 | Casio Computer Co., Ltd. | Electronic dictionary with example sentences |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US20050123526A1 (en) * | 2003-12-01 | 2005-06-09 | Medtronic Inc. | Administration of growth factors for neurogenesis and gliagenesis |
US7698125B2 (en) | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US9268780B2 (en) | 2004-07-01 | 2016-02-23 | Emc Corporation | Content-driven information lifecycle management |
JP5452868B2 (ja) | 2004-10-12 | 2014-03-26 | ユニヴァーシティー オブ サザン カリフォルニア | トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング |
US20070073678A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
KR100731283B1 (ko) * | 2005-05-04 | 2007-06-21 | 주식회사 알에스엔 | 질의어에 따른 대량문서기반 성향 분석시스템 |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
US7574348B2 (en) * | 2005-07-08 | 2009-08-11 | Microsoft Corporation | Processing collocation mistakes in documents |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
JP4878131B2 (ja) * | 2005-08-04 | 2012-02-15 | 株式会社エヌ・ティ・ティ・ドコモ | ユーザ行動推定システム、ユーザ行動推定方法 |
JP4170325B2 (ja) * | 2005-08-05 | 2008-10-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書の妥当性を評価する装置、方法およびプログラム |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
WO2007106858A2 (en) * | 2006-03-15 | 2007-09-20 | Araicom Research Llc | System, method, and computer program product for data mining and automatically generating hypotheses from data repositories |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7739255B2 (en) * | 2006-09-01 | 2010-06-15 | Ma Capital Lllp | System for and method of visual representation and review of media files |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US20080109845A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | System and method for generating advertisements for use in broadcast media |
US20080109409A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Brokering keywords in radio broadcasts |
US20080109305A1 (en) * | 2006-11-08 | 2008-05-08 | Ma Capital Lllp | Using internet advertising as a test bed for radio advertisements |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8000955B2 (en) * | 2006-12-20 | 2011-08-16 | Microsoft Corporation | Generating Chinese language banners |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US7962507B2 (en) * | 2007-11-19 | 2011-06-14 | Microsoft Corporation | Web content mining of pair-based data |
JP4940251B2 (ja) * | 2009-01-07 | 2012-05-30 | 株式会社東芝 | 文書処理プログラム及び文書処理装置 |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US10289653B2 (en) * | 2013-03-15 | 2019-05-14 | International Business Machines Corporation | Adapting tabular data for narration |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
JP6237168B2 (ja) * | 2013-12-02 | 2017-11-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10445423B2 (en) | 2017-08-17 | 2019-10-15 | International Business Machines Corporation | Domain-specific lexically-driven pre-parser |
US10769375B2 (en) | 2017-08-17 | 2020-09-08 | International Business Machines Corporation | Domain-specific lexical analysis |
CN110178130B (zh) * | 2017-12-04 | 2021-08-13 | 华为技术有限公司 | 一种生成相册标题的方法及设备 |
CN110162793A (zh) * | 2019-05-27 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 一种命名实体的识别方法及相关设备 |
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
US11176329B2 (en) | 2020-02-18 | 2021-11-16 | Bank Of America Corporation | Source code compiler using natural language input |
US11250128B2 (en) | 2020-02-18 | 2022-02-15 | Bank Of America Corporation | System and method for detecting source code anomalies |
CN111523304B (zh) * | 2020-04-27 | 2022-08-02 | 华东师范大学 | 一种基于预训练模型的产品描述文本的自动生成方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS5840684A (ja) * | 1981-09-04 | 1983-03-09 | Hitachi Ltd | 自然言語間の自動翻訳方式 |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
JPS59183469A (ja) * | 1983-03-31 | 1984-10-18 | Fujitsu Ltd | 機械翻訳装置 |
US4654875A (en) * | 1983-05-23 | 1987-03-31 | The Research Foundation Of State University Of New York | System to achieve automatic recognition of linguistic strings |
JPS6074081A (ja) * | 1983-09-30 | 1985-04-26 | Fujitsu Ltd | 自然言語文章生成装置 |
JPS6084667A (ja) * | 1983-10-17 | 1985-05-14 | Mitsubishi Electric Corp | 文章組立装置 |
JPS60200368A (ja) * | 1984-03-23 | 1985-10-09 | Fujitsu Ltd | 機械翻訳方式 |
JPS613267A (ja) * | 1984-06-15 | 1986-01-09 | Sharp Corp | 仮名漢字変換処理装置 |
JPS619758A (ja) * | 1984-06-25 | 1986-01-17 | Ricoh Co Ltd | カナ漢字変換処理装置 |
JPS619753A (ja) * | 1984-06-26 | 1986-01-17 | Hitachi Ltd | 文書処理装置における頻発熟語の自動登録方法 |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
JPS61188684A (ja) * | 1985-02-15 | 1986-08-22 | Matsushita Electric Ind Co Ltd | 認識装置 |
JPH0676355B2 (ja) * | 1985-07-29 | 1994-09-28 | 三井東圧化学株式会社 | グリシンとl−セリンの分離方法 |
-
1985
- 1985-10-25 JP JP60239779A patent/JPH083815B2/ja not_active Expired - Lifetime
-
1986
- 1986-10-24 US US06/922,889 patent/US4942526A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS6299865A (ja) | 1987-05-09 |
US4942526A (en) | 1990-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
US5109509A (en) | System for processing natural language including identifying grammatical rule and semantic concept of an undefined word | |
US20050171757A1 (en) | Machine translation | |
KR100530154B1 (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
US20050137853A1 (en) | Machine translation | |
JPH0644296A (ja) | 機械翻訳装置 | |
JPS61163467A (ja) | 機械翻訳システム | |
JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
US7957956B2 (en) | Systems and methods for normalization of linguistic structures | |
Underwood et al. | Translatability checker: A tool to help decide whether to use MT | |
Wong | Example-based machine translation | |
Lavie et al. | Rapid prototyping of a transfer-based Hebrew-to-English machine translation system | |
JPH05120324A (ja) | 言語処理方式 | |
Rajendran | Parsing in tamil: Present state of art | |
Slocum | A status report on the LRC machine | |
JPH0561902A (ja) | 機械翻訳システム | |
Liu et al. | Building a controlled health vocabulary in Japanese | |
JP2938897B2 (ja) | 文書作成処理装置 | |
JP2839419B2 (ja) | イディオム登録機能を持つ機械翻訳装置 | |
JP2719453B2 (ja) | 機械翻訳装置 | |
JP4023384B2 (ja) | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム | |
Simov et al. | Creation of a tagged corpus for less-processed languages with CLaRK System | |
JP3884001B2 (ja) | 言語解析システムおよび方法 |