JP2007241764A - 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 - Google Patents

構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2007241764A
JP2007241764A JP2006064803A JP2006064803A JP2007241764A JP 2007241764 A JP2007241764 A JP 2007241764A JP 2006064803 A JP2006064803 A JP 2006064803A JP 2006064803 A JP2006064803 A JP 2006064803A JP 2007241764 A JP2007241764 A JP 2007241764A
Authority
JP
Japan
Prior art keywords
analysis
similarity
input
syntax
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006064803A
Other languages
English (en)
Inventor
Kokui Jiyo
国偉 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006064803A priority Critical patent/JP2007241764A/ja
Priority to US11/490,219 priority patent/US20070213974A1/en
Priority to CNA2006101109948A priority patent/CN101034392A/zh
Publication of JP2007241764A publication Critical patent/JP2007241764A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対訳文を利用することなく、高精度で中国語のような孤立語の構文解析が可能な構文解析装置を提供すること。
【解決手段】構文解析装置1は、自然言語の文を入力する入力部10と、入力文の形態素解析及び構文解析を行う解析部20と、解析済コーパスデータベース30から入力文に最も類似する解析済コーパスを抽出する抽出部40と、解析された各解析候補と抽出された解析済コーパスとの類似度を計算する類似度計算部50と、計算された類似度が最大となる解析候補を解析結果として出力する出力部60とを備える。類似度計算部は、解析候補の形態素数をW、このうち抽出された解析済コーパスの形態素と同一構造の形態素数をW1、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数をW2としたときS=(W1/W)×W2により求められる類似度Sが大きいほど類似の度合いが大きいと判断する。
【選択図】 図1

Description

本発明は、コンピュータにより自然言語の構文を解析する構文解析プログラム、構文解析方法、構文解析装置、及び当該プログラムが記録されたコンピュータ読み取り可能な記録媒体に関し、特に、中国語のように単語間の区切りを判別しにくい孤立語の構文解析に適したプログラム等に関する。
この種の構文解析装置は、例えば機械翻訳システム内で翻訳の前段階として入力された自然言語の文法的な構造を解析するために用いられている。インターネット上で自国語以外の言語で記述されたウェブサイトを閲覧する際には、多くのユーザにとって機械翻訳による自国語への翻訳が理解の助けになる。機械翻訳は、原文を形態素解析及び構文解析し、解析結果に基づいて翻訳文を生成する。
このような構文解析装置は、従来から知られている。例えば、特許文献1には、入力文を一意的に形態素解析し、構文解析して得られた複数の入力構造の尤度を、用例データベースとシソーラスとに基づいて計算し、尤度が最大となる入力構造を解析結果として出力する構文解析装置が開示されている。また、特許文献2には、入力文を構文解析して複数の解析結果が生じて特定が困難な場合、入力文と対訳関係にある対訳文書の構文解析情報を利用して、入力文の構文構造を特定する構文解析方法が開示されている。
特開平06−332940号公報 特開2003−196274号公報
しかしながら、特許文献1の装置は、英語やドイツ語等の単語間がスペースで区切られた「分かち書き」言語や、単語間が「てにをは」等の助詞により区切られた日本語のような一意的に形態素解析が可能な言語に対しては有効であるが、中国語のように単語間の区切りを判別しにくい孤立語を入力文とする場合には高精度の解析ができないという問題がある。また、特許文献2の方法では、入力文の構文解析をする機能に加えて、対訳文の構文解析のデータベースが必要となるので、解析装置のコストが大きくなるという問題がある。
本発明は、上記の問題点に鑑みてなされたものであり、対訳文を利用することなく、高精度で中国語のような孤立語の構文解析が可能な構文解析プログラム、方法、装置、コンピュータ読み取り可能な記録媒体を提供することを目的とする。
本発明にかかる構文解析プログラムは、上記の目的を達成させるため、コンピュータに、自然言語の文を入力する入力ステップと、入力ステップにより入力された入力文の形態素解析及び構文解析を行う解析ステップと、解析済コーパスデータベースから入力文に最も類似する解析済コーパスを抽出する抽出ステップと、解析ステップにより複数の解析候補が得られた場合に、各解析候補と抽出ステップにより抽出された解析済コーパスとの類似度を計算する類似度計算ステップと、類似度計算ステップにより計算された類似度が最大となる解析候補を解析結果として出力する出力ステップとを実行させることを特徴とする。
解析ステップは、使用する自然言語に関する知識に基づき、入力文に含まれる未登録の単語を推定する機能を有することが望ましい。
また、類似度計算ステップでは、形態素解析により解析された形態素の内容と、構文解析により解析された構文構造とを用いて解析候補と解析済コーパスとの類似度を計算することができる。具体的には、類似度計算ステップでは、解析候補の形態素数をW、このうち抽出された解析済コーパスの形態素と同一構造の形態素数をW1、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数をW2としたとき、類似度Sを
S=(W1/W)×W2
により求めることができる。
類似度計算ステップでは、形態素解析により解析された形態素の内容と、解析済コーパスの形態素の内容との類似度をシソーラスによる概念間の相関値として計算することもできる。これは、文中の単語の意味が類似する場合には、文全体の構造も類似する可能性が高いという一般原則に基づいた解析手法である。
一方、本願発明に係る構文解析方法は、プログラムされたコンピュータにより構文を解析する方法において、上記の入力ステップと、解析ステップと、抽出ステップと、類似度計算ステップと、出力ステップとを含むことを特徴とする。
また、本願発明に係る構文解析装置は、プログラムされたコンピュータにより構文を解析する装置において、自然言語の文を入力する入力部と、入力部により入力された入力文の形態素解析及び構文解析を行う解析部と、解析済コーパスデータベースから入力文に最も類似する解析済コーパスを抽出する抽出部と、解析部により複数の解析候補が得られた場合に、各解析候補と抽出部により抽出された解析済コーパスとの類似度を計算する類似度計算部と、類似度計算部により計算された類似度が最大となる解析候補を解析結果として出力する出力部と、を備えることを特徴とする。
さらに、本願発明に係るコンピュータ読み取り可能な記録媒体は、上記の上記の入力ステップと、解析ステップと、抽出ステップと、類似度計算ステップと、出力ステップとを実行させるための構文解析プログラムが記録されていることを特徴とする。
以上のように構成された本発明の構文解析プログラム(方法、装置、媒体)によれば、解析済コーパスを利用することにより、中国語のような孤立語の未知語や曖昧性のある複合名詞の語切り誤りによる構文解析の誤りを解消することにより、構文解析精度を向上させることができる。
以下、本発明にかかる構文解析装置の実施形態を図面に基づいて説明する。なお、実施形態では、解析対象の孤立語として中国語を用いるが、他の孤立語にも同様に適用可能である。
最初に、図1に基づいて本実施形態の構文解析プログラムを利用した構文解析装置の概要を説明する。図1に示されるように、この構文解析装置1は、自然言語の文を入力する入力部10と、入力部により入力された入力文の形態素解析及び構文解析を行う解析部20と、解析済コーパスデータベース30から入力文に最も類似する解析済コーパスを抽出する抽出部40と、解析部20により複数の解析候補が得られた場合に、各解析候補と抽出部40により抽出された解析済コーパスとの類似度を計算する類似度計算部50と、類似度計算部50により計算された類似度が最大となる解析候補を解析結果として出力する出力部60とを備えている。
なお、構文解析装置1は、実際にはプログラムされたコンピュータにより構成され、このコンピュータ上で構文解析プログラムを実行することにより実現される。構文解析プログラムは、図1の各部に対応して、自然言語の文を入力する入力ステップと、入力ステップで入力された入力文の形態素解析及び構文解析を行う解析ステップと、解析済コーパスデータベースから入力文に最も類似する解析済コーパスを抽出する抽出ステップと、解析ステップにより複数の解析候補が得られた場合に、各解析候補と抽出ステップで抽出された解析済コーパスとの類似度を計算する類似度計算ステップと、類似度計算ステップにより計算された類似度が最大となる解析候補を解析結果として出力する出力ステップとを備える。
入力部10は、キーボードや光学式文字読取装置等の入力装置、あるいは、テキストファイルから解析対象となる自然言語の文を読み取るファイル読取装置であり、入力された文を解析部20に送る。この入力部10により文を入力する行程が、上記の入力ステップに該当する。
解析部20は、上記の解析ステップを実行することにより実現され、従来から知られている文法規則や統計手法に基づいて文を単語毎に切って形態素に分解する形態素解析部21と、解析された形態素に基づいて文の構造を解析する構文解析部22とを含んでいる。形態解析部21は、使用する自然言語、ここでは中国語に関する知識に基づき、入力文に含まれる未登録の単語を推定する機能を有する。なお、中国語のような孤立語を入力文とする場合、未知語や曖昧性のある複合名詞が含まれると、複数の解析候補が解析部20により得られる。
解析済コーパスデータベース30は、正しく形態素解析及び構文解析された多数の文(解析済コーパス)を文単位でレコードとして蓄積するデータベースであり、各レコードは、番号、コーパス、構文構造の3つのフィールドを持つ。例えば、以下の表1に示すようなレコードが登録されている。
「番号」フィールドにはコーパスの識別番号、「コーパス」フィールドには自然言語の文(文章、文節)、「構文構造」フィールドにはコーパスを正しく解析した結果がそれぞれ格納される。なお、構文構造には、分割された各形態素について、品詞(記号で表記)及び文中での格関係が表記される。表記の形式は、形態素が2つの場合には「(形態素/品詞,格関係,形態素/品詞)」となり、3つ以上の場合には「(形態素/品詞,格関係,(形態素/品詞,格関係,形態素/品詞))」のように入れ子構造となる。格関係には、主格、目的格、修飾格、並列格等があり、品詞には、名詞(記号:n)、代名詞(記号:rn)、動詞(記号:v)、形容詞(記号:a)、副詞(記号:ad)、介詞(記号:p)等がある。
抽出部40は、上記の抽出ステップを実行することにより実現され、解析済データベース30内を検索し、ベクトル空間法などの方法で登録されている多数の解析済コーパスの中から、入力文に最も類似するものを抽出する。
類似度計算部50は、上記の類似度計算ステップを実行することにより実現され、形態素解析部21により解析された形態素の内容と、構文解析部22により解析された構文構造とを用いて解析部20により得られた複数の解析候補と解析済コーパスとの類似度を計算する。具体的には、類似度計算部50は、解析候補の形態素数をW、このうち抽出された解析済コーパスの形態素と同一構造の形態素数をW1、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数をW2としたとき、類似度Sを
S=(W1/W)×W2
により求める。この類似度Sが大きいほど、類似の度合いが大きいと判断できる。
出力部60は、上記の出力ステップを実行することにより実現され、複数の解析候補の中から、上記の類似度計算部50により計算された類似度Sの値が最も大きい候補を選択し、これを解析結果として出力する。出力先は、画面、紙、ファイルのいずれか、あるいは、これらの組み合わせとすることができる。
次に、具体的な入力文に基づいて実施形態の構文解析装置1の作用について説明する。最初に、表2に示す入力文1が入力された場合について説明する。入力文1では、未登録語の処理が問題となる。この場合、解析部20は、表2に示す2つの解析候補を出力する。表中の格関係、品詞については、解析済コーパスデータベース30についての説明が同様に該当する。ただし、解析部では、未登録語を品詞の一種と捉える。未登録語は、記号uで表記される。
解析候補1、2の構造を図2及び図3に示す。解析候補1では、この入力文1の1番目に表記される文字は単独で名詞になることは少ないという中国語に関する知識から1−2番目との文字列で主格の未登録語を形成すると推定して解析している。これに対して、解析候補2では、入力文の1番目の文字を主格の名詞、二番目の文字を動詞と判断して解析している。3文字目以降はどちらの候補も共通であり、3,4番目が動詞、5−9番目の文字列で目的格であり、その中で5−6番目の文字列が修飾格、7−9番目の文字列が被修飾語であると解析されている。
抽出部40は、解析済コーパスデータベース30を検索して上記の入力文1に類似するコーパスを検索する。この例では、表1の番号1の解析済コーパスが選択される。番号1のコーパスの構造を図4に示す。
続いて、類似度計算部50は、解析部20により解析された解析候補1,2のそれぞれと抽出部40により抽出された番号1のコーパスとの類似度を計算する。まず、図2に示す解析候補1と図4に示す番号1の解析済コーパスとの類似度を計算する。この例では、解析候補1の形態素数W=4、このうち解析済コーパスの形態素と同一構造の形態素数W1=4、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数W2=3となるため、
S=(W1/W)×W2=(4/4)×3=3
となる。
これに対して、図3に示す解析候補2と図4に示す番号1の解析済コーパスとの類似度を計算する。この例では、解析候補2の形態素数W=5、このうち解析済コーパスの形態素と同一構造の形態素数W1=3、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数W2=3となるため、
S=(W1/W)×W2=(3/5)×3=1.8
となる。したがって、解析候補1の方が類似度が高くなるため、出力部60は解析候補1を入力文1の解析結果として出力する。
次に、表3に示す入力文2が入力された場合について説明する。入力文2では、複合名詞の区分け処理が問題となる。この場合、解析部20は表3に示す2つの解析候補を出力する。
解析候補3、4の構造を図5及び図6に示す。1−5番目の文字列に関する解析は共通であり、1−3番目の文字列が主格の名詞、4−5番目の文字列が動詞となる。6−9番目の目的格となる文字列の解析の仕方が解析候補3と4とで異なる。すなわち、解析候補3では、6−7番目の文字列が被修飾語である名詞、8−9番目の文字列が修飾格の名詞として区分されている。一方、解析候補4では、6−8番目の文字列が被修飾語である名詞、9番目の文字が修飾格の名詞として区分されている。
抽出部40は、解析済コーパスデータベース30を検索して上記の入力文2に類似するコーパスを検索する。この例では、表1の番号2の解析済コーパスが選択される。番号2のコーパスの構造を図7に示す。
続いて、類似度計算部50は、解析部20により解析された解析候補3,4のそれぞれと抽出部40により抽出された番号2のコーパスとの類似度を計算する。まず、図5に示す解析候補3と図7に示す番号2の解析済コーパスとの類似度を計算する。この例では、解析候補3の形態素数W=4、このうち解析済コーパスの形態素と同一構造の形態素数W1=4、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数W2=2となるため、
S=(W1/W)×W2=(4/4)×2=2
となる。
これに対して、図6に示す解析候補4と図7に示す番号2の解析済コーパスとの類似度を計算する。この例では、解析候補4の形態素数W=4、このうち解析済コーパスの形態素と同一構造の形態素数W1=4、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数W2=1となるため、
S=(W1/W)×W2=(4/4)×1=1
となる。したがって、解析候補3の方が類似度が高くなるため、出力部60は解析候補3を入力文2の解析結果として出力する。
なお、上記の例では、類似度計算部50における計算で形態素の構造及び内容を比較して類似度を求めたが、シソーラスを用いて類似度を計算することもできる。シソーラスを用いた類似度の計算について、以下に説明する。
例えば図8に示すようなシソーラスを用意する。楕円で囲まれた語句が概念、かぎ括弧で囲まれた語句は具体的な内容である。そして、入力文を解析して得られた形態素の内容と、抽出された解析済コーパスの形態素の内容との類似度をシソーラスによる概念間の相関度として計算する。具体的には、単語WiとWjとの間の相関度を(Wi, Wj) = 1/2n, (n = 0, 1, 2, …)により求める。n は概念間の距離である。距離は、同一概念に属する単語間では0、異なる概念に属する単語間では、各単語から共通の上位概念に達するまでの段階が距離となる。に例えば、「小説」と「軟件」との距離は0であるため、相関度は、(Wi, Wj) =(小説, 軟件)= 1/20 = 1となり、「小説」と「物理学」との距離は2であるため、相関度は、(Wi, Wj) =(小説, 物理学)= 1/22 = 1/4となる。文を構成する複数の形態素について、個々に相関度を計算し、それらの総和Σ(Wi, Wj)を文全体の相関度として用いる。この全体の相関度が大きいほど類似度が高いと判断できる。
表4に示す入力文3が入力された場合のシソーラスを用いた類似度計算の具体例を説明する。入力文3でも、複合名詞の区分け処理が問題となる。入力文3が入力されると、解析部20は表4に示す2つの解析候補を出力する。
解析候補5、6では主格の解析は共通であり、3−6番目の文字列の解析の仕方が異なる。すなわち、解析候補5では、3−4番目の文字列が被修飾語である名詞、5−6番目の文字列が修飾格の名詞として区分されている。これに対して、解析候補6では、3−5番目の文字列が被修飾語である名詞、6番目の文字が修飾格の名詞として区分されている。
抽出部40は、解析済コーパスデータベース30を検索して上記の入力文3に類似するコーパスを検索する。この例では、表1の番号3の解析済コーパスが選択される。
続いて、類似度計算部50は、解析部20により解析された解析候補5,6のそれぞれと抽出部40により抽出された番号3のコーパスとの類似度を図8のシソーラスを用いて計算する。ここでは、解析が共通である部分は省略し、解析が異なる3−6番目の文字列について、各候補と解析済コーパスとの各形態素間の相関度を計算する。各形態素間の相関度は以下の表5の上段に示したとおりとなり、各候補の相関度は下二段に示す通りとなる。
したがって、入力文3に対しては、解析候補5の方が類似度が高くなるため、出力部60は解析候補5を入力文3の解析結果として出力する。
上記の実施形態の構文解析装置1によれば、解析済コーパスデータベース30を利用して、入力文の解析結果とコーパスの解析結果とを比較して類似度が高いものを選択することにより、未登録語や曖昧な複合名詞が入力文に含まれる場合にも、正確な解析が可能となり、例えば翻訳の前段階で用いることにより、誤訳の可能性を低減することができる。
なお、上記の説明では、形態素の構造及び内容を用いた類似度の計算と、シソーラスを用いた形態素の内容の相関度の計算とを分けて説明したが、これらは上記のようにいずれか一方を適用してもよいし、双方を適用して総合的な類似度を判断するようにしてもよい。
本発明の実施形態にかかる構文解析装置の概略を示すブロック図である。 図1の装置の解析部により出力される解析候補1の構文構造を示す説明図である。 図1の装置の解析部により出力される解析候補2の構文構造を示す説明図である。 図1の装置の抽出部により抽出される解析済コーパスの構文構造を示す説明図である。 図1の装置の解析部により出力される解析候補1の構文構造を示す説明図である。 図1の装置の解析部により出力される解析候補2の構文構造を示す説明図である。 図1の装置の抽出部により抽出される解析済コーパスの構文構造を示す説明図である。 図1の装置の類似度計算部で用いられるシソーラスの構造を示す説明図である。
符号の説明
1 構文解析装置
10 入力部
20 解析部
21 形態解析部
22 構文解析部
30 解析済コーパスデータベース
40 抽出部
50 類似度計算部
60 出力部

Claims (8)

  1. コンピュータに、
    自然言語の文を入力する入力ステップと、
    該入力ステップで入力された入力文の形態素解析及び構文解析を行う解析ステップと、
    解析済コーパスデータベースから前記入力文に最も類似する解析済コーパスを抽出する抽出ステップと、
    前記解析ステップにより複数の解析候補が得られた場合に、各解析候補と前記抽出ステップで抽出された解析済コーパスとの類似度を計算する類似度計算ステップと、
    該類似度計算ステップにより計算された類似度が最大となる解析候補を解析結果として出力する出力ステップと、
    を実行させることを特徴とする構文解析プログラム。
  2. 前記解析ステップは、使用する自然言語に関する知識に基づき、入力文に含まれる未登録の単語を推定する機能を有することを特徴とする請求項1に記載の構文解析プログラム。
  3. 前記類似度計算ステップでは、形態素解析により解析された形態素の内容と、構文解析により解析された構文構造とを用いて解析候補と解析済コーパスとの類似度を計算することを特徴とする請求項1または2に記載の構文解析プログラム。
  4. 前記類似度計算ステップでは、解析候補の形態素数をW、このうち抽出された解析済コーパスの形態素と同一構造の形態素数をW1、抽出された解析済コーパスの形態素と同一構造かつ同一表記の形態素数をW2としたとき、前記類似度Sを
    S=(W1/W)×W2
    により求めることを特徴とする請求項3に記載の構文解析プログラム。
  5. 前記類似度計算ステップでは、形態素解析により解析された形態素の内容と、解析済コーパスの形態素の内容との類似度をシソーラスによる概念間の相関度として計算することを特徴とする請求項1または2に記載の構文構造解析プログラム。
  6. プログラムされたコンピュータにより構文を解析する方法において、
    自然言語の文を入力する入力ステップと、
    該入力ステップで入力された入力文の形態素解析及び構文解析を行う解析ステップと、
    解析済コーパスデータベースから前記入力文に最も類似する解析済コーパスを抽出する抽出ステップと、
    前記解析ステップにより複数の解析候補が得られた場合に、各解析候補と前記抽出ステップで抽出された解析済コーパスとの類似度を計算する類似度計算ステップと、
    該類似度計算ステップにより計算された類似度が最大となる解析候補を解析結果として出力する出力ステップと、
    を含むことを特徴とする構文解析方法。
  7. プログラムされたコンピュータにより構文を解析する装置において、
    自然言語の文を入力する入力部と、
    該入力部により入力された入力文の形態素解析及び構文解析を行う解析部と、
    解析済コーパスデータベースから前記入力文に最も類似する解析済コーパスを抽出する抽出部と、
    前記解析部により複数の解析候補が得られた場合に、各解析候補と前記抽出部により抽出された解析済コーパスとの類似度を計算する類似度計算部と、
    該類似度計算部により計算された類似度が最大となる解析候補を解析結果として出力する出力部と、
    を備えることを特徴とする構文解析装置。
  8. コンピュータに、
    自然言語の文を入力する入力ステップと、
    該入力ステップで入力された入力文の形態素解析及び構文解析を行う解析ステップと、
    解析済コーパスデータベースから前記入力文に最も類似する解析済コーパスを抽出する抽出ステップと、
    前記解析ステップにより複数の解析候補が得られた場合に、各解析候補と前記抽出ステップで抽出された解析済コーパスとの類似度を計算する類似度計算ステップと、
    該類似度計算ステップにより計算された類似度が最大となる解析候補を解析結果として出力する出力ステップと、
    を実行させるための構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2006064803A 2006-03-09 2006-03-09 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 Withdrawn JP2007241764A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006064803A JP2007241764A (ja) 2006-03-09 2006-03-09 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
US11/490,219 US20070213974A1 (en) 2006-03-09 2006-07-21 Syntax analysis program, syntax analysis method, syntax analysis device, and computer-readable medium storing syntax analysis program
CNA2006101109948A CN101034392A (zh) 2006-03-09 2006-08-11 语法分析方法、装置及存储语法分析程序的产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006064803A JP2007241764A (ja) 2006-03-09 2006-03-09 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2007241764A true JP2007241764A (ja) 2007-09-20

Family

ID=38480039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006064803A Withdrawn JP2007241764A (ja) 2006-03-09 2006-03-09 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20070213974A1 (ja)
JP (1) JP2007241764A (ja)
CN (1) CN101034392A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209941A (ja) * 2010-03-29 2011-10-20 Toshiba Corp 文書校正支援装置、方法およびプログラム
JP2018014094A (ja) * 2016-07-07 2018-01-25 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 仮想ロボットのインタラクション方法、システム及びロボット

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777042B (zh) * 2010-01-21 2013-01-16 西南科技大学 信息检索领域中基于神经网络和标签库的语句相似度算法
CN102902665B (zh) * 2012-09-25 2015-01-07 太原理工大学 一种基于词缀的用于对未知词进行语义分类的系统
CN103064885B (zh) * 2012-12-06 2015-12-23 安徽科大讯飞信息科技股份有限公司 一种实现多关键词同步输入系统及方法
CN105045784B (zh) * 2014-12-12 2019-07-02 中国科学技术信息研究所 英语词句的存取装置方法和装置
CN106569994B (zh) * 2015-10-10 2019-02-26 阿里巴巴集团控股有限公司 地址的分析方法及装置
CN109086285B (zh) * 2017-06-14 2021-10-15 佛山辞荟源信息科技有限公司 基于语素的汉语智能处理方法和系统及装置
CN108985550A (zh) * 2018-05-31 2018-12-11 江苏乙生态农业科技有限公司 一种基于五层维度的白酒评价方法
US11435883B2 (en) * 2018-07-10 2022-09-06 Samsung Electronics Co., Ltd. Electronic device, and method for controlling electronic device
CN108959617B (zh) * 2018-07-18 2022-03-25 上海萌番文化传播有限公司 一种语法特征的匹配方法、装置、介质和计算设备
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
KR102303469B1 (ko) * 2020-12-09 2021-09-23 엔에이치엔 주식회사 상품 기반 자동 매칭 검색 광고 시스템 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
KR100453227B1 (ko) * 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209941A (ja) * 2010-03-29 2011-10-20 Toshiba Corp 文書校正支援装置、方法およびプログラム
JP2018014094A (ja) * 2016-07-07 2018-01-25 深▲せん▼狗尾草智能科技有限公司Shenzhen Gowild Robotics Co.,Ltd. 仮想ロボットのインタラクション方法、システム及びロボット

Also Published As

Publication number Publication date
CN101034392A (zh) 2007-09-12
US20070213974A1 (en) 2007-09-13

Similar Documents

Publication Publication Date Title
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Shoufan et al. Natural language processing for dialectical Arabic: A survey
US8185377B2 (en) Diagnostic evaluation of machine translators
Nguyen et al. Building a large syntactically-annotated corpus of Vietnamese
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2003196274A (ja) 構文解析方法及び装置
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
CA2793268A1 (en) Method and apparatus for paraphrase acquisition
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
Zalmout et al. Optimizing tokenization choice for machine translation across multiple target languages
Van Der Goot et al. Lexical normalization for code-switched data and its effect on POS-tagging
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Murauer et al. DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Kaji et al. Splitting noun compounds via monolingual and bilingual paraphrasing: A study on japanese katakana words
US7983899B2 (en) Apparatus for and method of analyzing chinese
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
Saito et al. Multi-language named-entity recognition system based on HMM
JP5800206B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
Grundkiewicz Automatic extraction of polish language errors from text edition history
El-Taher et al. An Arabic CCG approach for determining constituent types from Arabic Treebank
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20071116

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080605

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100108