JP5464209B2 - 言語解析装置、方法、及びプログラム - Google Patents

言語解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP5464209B2
JP5464209B2 JP2011507101A JP2011507101A JP5464209B2 JP 5464209 B2 JP5464209 B2 JP 5464209B2 JP 2011507101 A JP2011507101 A JP 2011507101A JP 2011507101 A JP2011507101 A JP 2011507101A JP 5464209 B2 JP5464209 B2 JP 5464209B2
Authority
JP
Japan
Prior art keywords
division
point
dividing
candidates
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011507101A
Other languages
English (en)
Other versions
JPWO2010113691A1 (ja
Inventor
真一 安藤
邦彦 定政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011507101A priority Critical patent/JP5464209B2/ja
Publication of JPWO2010113691A1 publication Critical patent/JPWO2010113691A1/ja
Application granted granted Critical
Publication of JP5464209B2 publication Critical patent/JP5464209B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Description

本発明は、自然言語に対して構文解析等の言語解析を行なう方法に関し、特に、長文を分割しつつ効率的に言語解析処理を行なう言語解析装置、言語解析方法及び言語解析プログラムに関する。
一般に構文解析等の言語解析では、入力された文字列を文単位に分割し、各々の文単位に解析処理を施す方法が取られている。しかし、例えば特許出願の明細書等に見られるような、1文の長さが非常に長い文を解析する場合には、単純な文単位での解析処理では問題が生じる場合がある。
通常、構文解析等の言語解析装置は、入力された文字列を単語単位に分割し、その単語の組み合わせの各々について単語間の関係を調べることによって解析処理を行なう。従って、入力文の長さが長くなるということは、考慮すべき単語の組み合わせ数が飛躍的に増加することを意味する。
このように、非常に長い文を解析する場合には、大量の単語の組み合わせを計算する必要が生じるため、解析時間が長くなる、あるいは解析処理に大量のメモリ容量が必要になるといった問題が生じることになる。
また、考慮すべき単語の組み合わせが増えるということは、解釈の可能性が増えることにもなるため、解析誤りも多くなる傾向にある。そこで、長文が入力された場合には解析処理に先立って、入力文を分割する方法が種々提案されている。
例えば、特許文献1には、機械翻訳処理の時間が予め指定された一定時間を超える場合に、予め与えられた分割規則を適用して入力された文を分割し、個々の分割単位毎に機械翻訳処理を実行する方法が開示されている。
さらに、特許文献2には、分割規則を適応単語数と共に記憶し、適応単語数の大きい順に順次適応することで、より適切な単位に入力文を分割する方法が提案されている。
特開昭61−255468号公報 特許第003173514号
上述した構文解析等の言語解析における入力文の分割方法の問題について述べる。
まず、解析処理が受け入れ可能な最大入力長が与えられた場合に、長文を当該最大入力長に応じて適切な長さの処理単位に分割することができない点である。
分割規則には、比較的大まかな区切りとなる言語表現に注目して分割する分割規則と、比較的細かな区切りとなる言語表現に着目して分割する分割規則が存在する。一般に、前者の分割規則は、それを適用して得られた分割点で分割した各々の分割単位はそのまま解析処理を行なっても正しく解析することができる。しかし、その反面、比較的少ない特定の言語表現に着目した規則であるため、全ての入力文から必ず分割点が得られるとは限らず、また分割点が得られたとしても各々の分割単位が充分に短くならない場合があるという問題点がある。
また、後者の分割規則は、比較的頻繁に使われる言語表現に着目して分割点を得るため、比較的多くの文で分割点を得ることができ、また得られた分割単位が充分に短くなる可能性が高い。しかし、その反面、個々の分割単位が短くなりすぎるために各々の分割単位が正しく解析できなくなり解析精度が落ちるという問題点がある。
特許文献2に記載の分割方法は、分割規則を適応単語数と共に記憶し、適応単語数の多い順に分割規則を適用することで前述の問題を解決しようと試みたものである。しかし、個々の分割規則に対して適切な適応単語数を設定することが難しく、また適応単語数の少ない分割規則を適用せざるを得ない段階に至ると分割単位が短くなりすぎて、やはり各々の分割単位が正しく解析できなくなり解析精度が落ちるという問題点がある。
(発明の目的)
本発明の目的は、解析処理が受け入れ可能な最大入力長に応じて、長文を適切な長さの処理単位に分割することができる言語解析装置、言語解析方法を提供することにある。
本発明による言語解析装置は、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、分割点候補生成手段で得られた分割点候補によって得られる分割単位候補が最大入力長より短い場合に、個々の分割単位が最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを含む。
本発明による言語解析方法は、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップと、分割点候補生成ステップで得られた分割点候補によって得られる分割単位候補が最大入力長より短い場合に、個々の分割単位が最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップと、分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップとを含む。
本発明による言語解析プログラムは、コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、コンピュータに、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、分割点候補生成処理で得られた分割点候補によって得られる分割単位候補が最大入力長より短い場合に、個々の分割単位が最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させる。
本発明によれば、解析処理が受け入れ可能な最大入力長が設定された場合に、その最大入力長に応じて長文を適切な長さの処理単位に分割することができる。
その理由は、解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を順次適用しつつ、個々の分割単位が最大入力長以下の最大の長さとなるように分割点を調整するためである。
本発明の第1の実施の形態による言語解析装置の構成を示すブロック図である。 本発明の第1の実施の形態による言語解析装置における動作を示すフローチャートである。 本発明の第1の実施の形態による言語解析装置における動作を示すフローチャートである。 本発明の第2の実施の形態による言語解析装置の構成を示すブロック図である。 本発明の第1の実施の形態に対応する実施例1における分割規則記憶部のデータ構造例を示す図である。 本発明の第1の実施の形態に対応する実施例1における動作の具体例を示す画面例である。 本発明の第1の実施の形態による言語解析装置のデータ処理装置のハードウェア構成例を示すブロック図である。
(第1の実施の形態)
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態による言語解析装置は、キーボードやマウス等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とを含む。
記憶装置3は、分割規則記憶部31を備えている。分割規則記憶部31は、入力された文字列に適用することで分割点となりうる箇所を認定するための分割規則を格納する。
ここで、分割規則記憶部31には、個々の分割規則を、その分割規則の適用によって解析精度に問題を生じる危険性の程度に応じて、少なくとも2つ以上のレベルに分けて格納する。
例えば、個々の分割規則は、その分割規則を適用することで得られる個々の分割単位に対して言語解析を行なった結果と、入力文字列を分割せずに言語解析を行なった結果とを比べた場合に、各々の分割単位に対応する解析結果が原理的に変化しない場合には「危険性なし」(高レベル)、変化する可能性が低い場合には「危険性小」(中レベル)、変化する可能性が高い場合には「危険性大」(低レベル)といったレベルに分けられて格納される。
データ処理装置2は、分割点候補生成手段21と、分割点調整手段22と、分割手段23とを含む。
分割点候補生成手段21は、処理対象として入力された文字列が予め定められた最大入力長より長い場合に、分割規則記憶部31に格納されている分割規則を問題の生じる危険性の低い順に読み出し、その分割規則を適用することによってその入力文字列中に分割点候補を生成する。
ここで分割点候補とは、入力文字列中に認定された分割点となりうる箇所を意味する。また最大入力長は、許容される入力文字列の最大長を意味する。なお、最大入力長は、言語解析に要する処理時間や使用メモリ量に対する許容量に応じて決定される値であり、例えば、入力文字列に含まれる文字の数や形態素の数で定義することが可能である。
分割点調整手段22は、分割点候補生成手段21で生成された分割点候補を受け取り、入力文字列を当該分割点候補で分割して得られる個々の分割単位候補を順次チェックしつつ、当該分割点候補を分割点として採用するかどうかを決定する。
分割点調整手段22は、特に最終的に得られる個々の分割単位の全てが最大入力長を超えないように、必要な分割点候補を選択することで分割点を決定する。
分割手段23は、分割点調整手段22で決定された分割点を受け取り、入力文字列を当該分割点で分割することによって分割単位を生成する。
(実施の形態による動作)
次に、図1及び図2のフローチャートを参照して、本実施の形態の動作について詳細に説明する。
データ処理装置2の分割点候補生成手段21は、入力装置1から入力文字列を受け取ると、まず当該入力文字列の長さを計算し、予め与えられた最大入力長と比較することで、入力文字列の長さが最大入力長以上かどうかを判定する(ステップA1)。ここで、入力装置1からの入力は単純な文字列でもよいが、より好適には当該文字列を構成する形態素や原型、品詞といった各々の形態素の属性情報を含んでいることが望ましい。
ステップA1で入力文字列の長さが最大入力長よりも小さい場合には、分割する必要がないため全ての処理を終了する。
また、入力文字列の長さが最大入力長以上である場合には、当該入力文字列を分割対象に設定する(ステップA2)。
次に、分割規則のレベルを初期化し、最も危険性の小さいレベル(高レベル)に設定する(ステップA3)。
分割点候補生成手段21は、分割対象と設定した文字列について、設定されたレベルの分割規則を用いて分割点生成処理を開始する(ステップA4)。この分割点生成処理については後述する。
さらに、分割手段23は、分割点候補生成手段21の分割点生成処理によって得られた分割点に基づいて分割対象の文字列を分割する(ステップA5)。
次に、分割点候補生成手段21と分割点調整手段22による分割点生成処理について、図3のフローチャートを参照して詳細に説明する。
分割点候補生成手段21は、設定されたレベルの分割規則を分割規則記憶部31から取得し、分割対象として設定した文字列に適用することで分割点候補を生成する(ステップB1)。
ここで、当該分割規則を適用しても分割対象から分割点候補が得られなかった場合には、分割規則のレベルを1レベル下げ(ステップB2とステップB3)、新たなレベルの分割規則を用いて再度分割点候補の生成を試みる。すなわち、危険性のレベルが1レベル低い(初期の分割規則より危険性の大きい)分割規則を用いて分割点候補の生成を行う。
なお、図3には図示しないが、分割規則のレベルを下げることができない場合にはその分割点生成処理を終了する。
図3のステップB1において分割点候補が設定された場合は、設定された分割点候補を分割点調整手段22に引き渡す。
分割点調整手段22は、分割点候補生成手段21が設定した分割点候補を受け取ると、入力文字列を当該分割点候補で分割単位候補に分割する(ステップB4)。
そして、分割点調整手段22は、得られた分割単位候補の中から、チェック処理を行なっていない分割単位候補を1つ選択する(ステップB5)。
ここで、分割単位候補の選択方法としては、例えば、現在の分割対象から得られた分割単位候補の中の最も先頭に近い未チェックの分割単位候補から順番に選択する方法を用いることができる。また、最も末尾に近い未チェックの分割単位候補から順番に選択する方法や、最も短い未チェックの分割単位候補から順番に選択する方法を用いてもよい。
次に、分割点調整手段22は、ステップB4においてチェックを行なっていない分割単位候補が選択できたか否かを調べる(ステップB6)。
ステップB4において未チェックの分割単位候補が選択できない場合には、既に全ての分割単位候補に対してチェック処理を完了しているため、その時点で削除されずに残っている分割点候補を分割点として採用し、得られた分割点を出力して処理を終了する(ステップB7)。
また、ステップB6において未チェックの分割単位候補が選択できた場合、分割点調整手段22は、選択された分割単位候補の長さを計算し、予め定められた最大入力長と比較し、分割単位候補の長さが最大入力長以上であるかどうかを判定する(ステップB8)。
ここで、ステップB8において選択された分割単位候補の長さが最大入力長以上であると判定された場合、分割点調整手段22は、当該分割単位候補を新たな分割対象に設定し(ステップB9)、分割規則のレベルをさらに1レベル下げる(ステップB10)。
次に、分割点調整手段22は、分割点候補生成手段21に処理を引き渡し、この新たなレベルの分割規則を用いて当該分割単位候補に対する分割点候補の生成を行なう(ステップB11)。
その後、分割点候補生成手段21から処理が戻ると、分割点調整手段22は、ステップB5に戻って処理を継続する。
また、ステップB8において、選択された分割単位候補の長さが最大入力長より小さいと判定された場合には、分割点調整手段22は、選択された分割単位候補に隣接する新たな分割単位候補を現在の分割対象内から取得する(ステップB12)。
次に、分割点調整手段22は、隣接する分割単位候補が取得できたか否かを調べ(ステップB13)、取得できない場合はステップB5に戻り、処理を継続する。
また、隣接する分割単位候補が取得できた場合には、分割点調整手段22は、選択された分割単位候補の長さと取得された隣接する分割単位候補の長さの和を計算し、予め定められた最大入力長と比較することで、長さの和が最大入力長以上であるかどうかを判定する(ステップB14)。
ここで、ステップB14において計算された長さの和が最大入力長以上であると判定された場合、分割点調整手段22は、選択中の分割単位候補をチェック済みとして確定し、ステップB5に戻って処理を継続する。
また、ステップB14において計算された長さの和が最大入力長より小さいと判定された場合には、分割点調整手段22は、選択した分割単位候補と取得した隣接する分割単位候補の間の分割点候補を削除する(ステップB15)。次いで、選択した分割単位候補と取得した隣接する分割単位候補の2つの分割単位候補を繋ぎ合わせた分割単位を新たな処理対象として設定し(ステップB16)、ステップB12に戻って処理を継続する。
(第1の実施の形態による効果)
次に、本実施の形態の効果について説明する。
本実施の形態では、解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を順次適用しつつ、個々の分割単位が最大入力長以下の範囲で長さが小さくなりすぎないように分割点を調整するように構成されている。このため、解析処理が受け入れ可能な最大入力長が設定された場合に、その最大入力長に応じて長文を適切な長さの処理単位に分割することができる。
また、本実施の形態では、個々の分割規則には解析精度に問題を生じる危険性に応じたレベルという大まかな分類規則を設定することにより、個々の分割単位が前記最大入力長以下の範囲で長さが小さくなりすぎないように分割点を調整するように構成されている。このため、個々の分類規則に対してそれを適用すべき単語数の下限といった厳格な優先順位情報を付与する必要がなく、比較的容易に分割規則を作成することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図4を参照すると、本発明の第2の実施の形態は、本発明の第1の実施の形態と同様に、入力装置1、データ処理装置6、記憶装置3、出力装置4を備える。
言語解析用プログラム5は、データ処理装置6に読み込まれデータ処理装置6の動作を制御し、記憶装置3に分割規則記憶部32を生成する。
また、データ処理装置6は、言語解析用プログラム5の制御により第1の実施の形態におけるデータ処理装置2による処理と同様の処理を実行する。
データ処理装置6は、図7に示すようなハードウェア構成を有している。
図7を参照すると、データ処理装置2は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができ、CPU(Central Processing Unit)61、RAM(Random Access Memory)等のメインメモリであり、データの作業領域やデータの一時退避領域に用いられる主記憶部62、入力装置1、出力装置4及び記憶装置3と接続してデータの送受信を行う入出力インタフェース部63、上記各構成要素を相互に接続するシステムバス64を備えている。記憶装置3は、例えば、ROM(Read
Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。
本実施の形態によるデータ処理装置6は、上述した言語解析用プログラム5を組み込んだ、LSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、言語解析用プログラム5を、記憶装置3に格納し、そのプログラムを主記憶部62にロードしてCPU61で実行することにより、ソフトウェア的に実現することも可能である。
次に、本発明の実施例1について図面を参照して説明する。本実施例は、本発明の第1の実施の形態に対応するものである。
本実施例は、入力装置1としてキーボードを、データ処理装置2としてパーソナルコンピュータを、記憶装置3として磁気ディスク記録装置を、出力装置4としてディスプレイを備えている。
パーソナルコンピュータは、分割点候補生成手段21、分割点調整手段22、分割手段23の機能を実行する中央演算部(CPU)を有しており、また、磁気ディスク記憶装置には、分割規則記憶部31として機能する記憶領域が確保されている。
ここで、分割規則記憶部31には、図5に示すような分割規則が格納されている場合を考える。図5は、分割規則記憶部31に格納される分割規則を模式的に表形式で表したものであり、各行が個々の分割規則を表している。
図5において、最初の「レベル」の列には、その分割規則の適用によって解析精度に問題を生じる危険性の程度を示すレベルの情報が格納されている。次の「分割点認定パタン」の列には、分割点を認定するためのパタンの情報が格納されており、最後の「分割点」の列には、分割点認定パタンとの相対位置で分割点と認定される場所を表す情報が格納されている。
例えば、図5の表の1行目の分割規則は、この分割規則がその適用によって解析精度に問題を生じる危険性が最も小さい「レベル1」の分割規則である。この「レベル1」の分割規則においては、入力文字列中に分割点認定パタンとして句点「。」がある場合に、その句点(パタン)「。」の直後を分割点として認定できることが示されている。
また、図5の表の2行目の分割規則は、この分割規則がその適用によって解析精度に問題を生じる危険性が比較的小さい「レベル2」の分割規則である。この「レベル2」の分割規則においては、入力文字列中に分割点認定パタンとして接続助詞「が」と読点「、」がその順に隣接しているパタンがある場合に、そのパタンの直後を分割点として認定できることが示されている。同様に、図5の表の3行目以下に、レベル3、4の分割規則が記述されている。分割規則のレベルは、レベル1が最も高く、レベル2、レベル3、レベル4の順に低くなる。
以下では、最大入力長が「100」に設定されているものとする。そして、入力文字列として、図6のa)に示す長さが300の入力文「〜〜〜する。〜〜〜するので、〜〜し、〜〜し、さらに〜〜する。」が入力され、図5に示す分割規則を用いた場合の動作例について説明する。
入力装置1であるキーボード等からデータ処理装置2としてのパーソナルコンピュータに、図6のa)の入力文が入力されると、分割点候補生成手段21が、入力文を受け付けてその長さを計算する。その結果、分割点候補生成手段21は、入力文の長さが「300」であり、最大入力長「100」以上であることを検出して、その入力文を分割対象として設定する。さらに、分割規則のレベルを初期化して最も高い「レベル1」に設定し、分割点生成処理を実行する。
分割点生成処理において、分割点候補生成手段21は、まず「レベル1」の分割規則を分割規則記憶部31から取得し、分割対象である図6のa)に示す入力文全体に適用する。ここで、分割点候補生成手段21は、分割対象中の句点「。」を検出し、その後ろに分割点候補を設定する。
次に、分割点調整手段22は、分割点候補生成手段21が設定した分割点候補を受け取り、分割対象である入力文を分割単位候補に分割する。その状態を、図6のb)に示す。
そして、分割点調整手段22は、分割対象内から未処理の分割単位候補を1つ選択する。ここでは、未チェックの分割単位候補の選択方法として、分割単位候補の中の最も先頭に近い未チェックの分割単位候補から順番に選択する方法を採用するものとする。
すると、まず図6のb)の最初の長さ「60」の分割単位候補「〜〜〜する。」が選択される。さらに、分割点調整手段22は、その分割単位候補の長さを計算し、得られた分割単位候補の長さ「60」が最大入力長「100」よりも小さいことを判定する。
そこで、分割点調整手段22は、分割対象内から現在選択されている分割単位候補「〜〜〜する。」に隣接する分割単位候補「〜〜〜するので、〜〜し、〜〜し、さらに〜〜する。」を取得する。
この2つの長さの和を計算すると「300」であるため、現在選択中の分割単位候補「〜〜〜する。」を処理済として確定し、分割点調整手段22は、次の未処理の分割単位候補「〜〜〜するので、〜〜し、〜〜し、さらに〜〜する。」を新たな処理対象として選択する。
すると、この分割単位候補は長さが「240」であり、最大入力長「100」以上であるため、分割点調整手段22は、この分割単位候補を分割対象とし、また分割規則のレベルを1つ下の「レベル2」として分割点生成処理を再帰的に呼び出す。
分割点候補生成手段21は、上記と同様に、図5に示す「レベル2」の分割規則を分割規則記憶部31から取得し、分割対象である、図6のb)の2番目の分割単位候補に適用する。
ここで、分割点候補生成手段21は、分割対象中の接続助詞「ので」と読点「、」が連続するパタンを検出し、その後ろに分割点候補を設定する。その状態を、図6のc)に示す。
そして、分割点調整手段22は、さらに上記と同様にして、長さが最大入力長より小さい分割単位候補「〜〜〜するので、」(長さ「80」)を処理済として確定する。その後、分割点調整手段22は、長さが最大入力長以上の分割単位候補「〜〜し、〜〜し、さらに〜〜する。」(長さ「160」)を分割対象とし、また、分割規則のレベルを1つ下の「レベル3」として再度、分割点生成処理を再帰的に呼び出す。
分割点候補生成手段21は、上記と同様に、「レベル3」の分割規則を分割規則記憶部31から取得し、分割対象である、図6のc)の3番目の分割単位候補に適用する。ここで、分割点候補生成手段21は、分割対象中の動詞連用中止形の「し」と読点「、」が連続するパタンを2箇所検出し、その各々の後ろに分割点候補を設定する。その状態を、図6のd)に示す。
次に、分割点調整手段22は、未処理の分割単位候補としてまず1番目の分割単位候補「〜〜し、」(長さ「50」)を選択し、その長さ「50」が最大入力長「100」よりも小さいことを判定する。
そして、分割点調整手段22は、分割対象内から現在選択されている1番目の分割単位候補「〜〜し、」に隣接する2番目の分割単位候補「〜〜し、」を取得する。
さらに、分割点調整手段22は、この2つの分割単位候補の長さの和を計算し、その長さの和「80」が最大入力長100よりも小さいことを判定する。
そこで、分割点調整手段22は、この2つの分割単位候補の間の分割点候補を削除し、2つの分割単位候補を繋ぎ合わせた「〜〜し、〜〜し、」の単位(長さ「80」)を新たな処理対象とする。その状態を、図6のe)に示す。
そして、分割点調整手段22は、次の隣接する分割単位候補「さらに〜〜する。」(長さ「80」)を取得するが、処理対象との長さの和が「160」となり、最大入力長「100」以上となるため、分割単位候補「〜〜し、〜〜し、」(長さ「80」)を処理済として確定し、次の未処理の分割単位候補「さらに〜〜する。」(長さ「80」)を新たな処理対象として選択する。
しかし、この分割単位候補は、その長さが最大入力長「100」より小さく、かつ、隣接する未処理の分割単位候補が存在しないため、分割点調整手段22は得られた分割点候補を確定し分割点を生成する。
さらに分割点調整手段22は、再帰的に処理を戻すが既に未処理の分割単位候補が存在しないため得られた分割点候補を次々に確定し分割点を生成する。
最後に、分割手段23は、得られた分割点で入力文を分割し、「〜〜〜する。」「〜〜〜するので、」「〜〜し、〜〜し、」「さらに〜〜する。」の4つの分割単位を出力する。
以上好ましい実施の形態と実施例をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態及び実施例に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
この出願は、2009年3月30日に出願された日本出願特願2009−081431を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明の言語解析装置は、第1の言語で記述された文書を解析して各文の構文構造を出力する構文解析装置や、第1の言語(ある言語)で記述された文書を第2の言語(別の言語)に翻訳する機械翻訳装置といった用途に適用することができる。

Claims (12)

  1. 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
    予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
    前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
    前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
    前記分割点調整手段が、
    分割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析装置
  2. 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
    予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
    前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
    前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
    前記分割点調整手段が、
    分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析装置
  3. 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
    予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
    前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
    前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
    前記分割点調整手段が、
    分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析装置
  4. 前記分割点調整手段が、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成手段は、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項1から請求項3の何れか1項に記載の言語解析装置
  5. 言語解析装置による言語解析方法であって、
    前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
    前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
    前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
    前記分割点調整ステップにおいて、
    割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析方法
  6. 言語解析装置による言語解析方法であって、
    前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
    前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
    前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
    前記分割点調整ステップにおいて、
    分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析方法
  7. 言語解析装置による言語解析方法であって、
    前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
    前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
    前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
    前記分割点調整ステップにおいて、
    分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析方法
  8. 前記分割点調整ステップで、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成ステップにおいて、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項5から請求項7の何れか1項に記載の言語解析方法
  9. コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
    コンピュータに、
    予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
    前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
    前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
    前記分割点調整処理において、
    分割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析プログラム
  10. コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
    コンピュータに、
    予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
    前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
    前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
    前記分割点調整処理において、
    分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析プログラム
  11. コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
    コンピュータに、
    予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
    前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
    前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
    前記分割点調整処理において、
    分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
    ことを特徴とする言語解析プログラム
  12. 前記分割点調整処理で、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成処理において、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項9から請求項11の何れか1項に記載の言語解析プログラム
JP2011507101A 2009-03-30 2010-03-23 言語解析装置、方法、及びプログラム Expired - Fee Related JP5464209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011507101A JP5464209B2 (ja) 2009-03-30 2010-03-23 言語解析装置、方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009081431 2009-03-30
JP2009081431 2009-03-30
JP2011507101A JP5464209B2 (ja) 2009-03-30 2010-03-23 言語解析装置、方法、及びプログラム
PCT/JP2010/054920 WO2010113691A1 (ja) 2009-03-30 2010-03-23 言語解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010113691A1 JPWO2010113691A1 (ja) 2012-10-11
JP5464209B2 true JP5464209B2 (ja) 2014-04-09

Family

ID=42827986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011507101A Expired - Fee Related JP5464209B2 (ja) 2009-03-30 2010-03-23 言語解析装置、方法、及びプログラム

Country Status (5)

Country Link
US (1) US8977539B2 (ja)
EP (1) EP2416256A4 (ja)
JP (1) JP5464209B2 (ja)
CN (1) CN102369524B (ja)
WO (1) WO2010113691A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755183B1 (en) * 2016-01-28 2020-08-25 Evernote Corporation Building training data and similarity relations for semantic space
JP6631930B2 (ja) * 2017-02-07 2020-01-15 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
CN112085585A (zh) * 2020-08-03 2020-12-15 北京贝壳时代网络科技有限公司 一种信用风险等级评估方法及系统
CN111680493B (zh) * 2020-08-12 2021-05-07 江西风向标教育科技有限公司 英语文本分析方法、装置、可读存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512329A (ja) * 1991-07-05 1993-01-22 Canon Inc 機械翻訳方式
JPH08190563A (ja) * 1995-01-12 1996-07-23 Sharp Corp 機械翻訳装置
JPH08235180A (ja) * 1995-02-27 1996-09-13 Sharp Corp 機械翻訳装置
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61255468A (ja) 1985-05-08 1986-11-13 Toshiba Corp 機械翻訳処理装置
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5369574A (en) * 1990-08-01 1994-11-29 Canon Kabushiki Kaisha Sentence generating system
JP3173514B2 (ja) 1991-08-28 2001-06-04 松下電器産業株式会社 機械翻訳機
US6651039B1 (en) * 1995-08-08 2003-11-18 Matsushita Electric Industrial Co., Ltd. Mechanical translation apparatus and method
CN100424685C (zh) 2005-09-08 2008-10-08 中国科学院自动化研究所 一种基于标点处理的层次化汉语长句句法分析方法及装置
EP2070087A2 (en) * 2006-09-27 2009-06-17 Koninklijke Philips Electronics N.V. Method of creating a summary
CN100543727C (zh) * 2006-12-21 2009-09-23 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
JP5323425B2 (ja) 2007-09-03 2013-10-23 株式会社アルバック 半導体装置の製造方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512329A (ja) * 1991-07-05 1993-01-22 Canon Inc 機械翻訳方式
JPH08190563A (ja) * 1995-01-12 1996-07-23 Sharp Corp 機械翻訳装置
JPH08235180A (ja) * 1995-02-27 1996-09-13 Sharp Corp 機械翻訳装置
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
JPWO2010113691A1 (ja) 2012-10-11
CN102369524A (zh) 2012-03-07
US20120016664A1 (en) 2012-01-19
EP2416256A4 (en) 2017-09-20
WO2010113691A1 (ja) 2010-10-07
CN102369524B (zh) 2014-08-13
US8977539B2 (en) 2015-03-10
EP2416256A1 (en) 2012-02-08

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US8612206B2 (en) Transliterating semitic languages including diacritics
JP5377889B2 (ja) 言語処理装置およびプログラム
US7761301B2 (en) Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus
US8788266B2 (en) Language model creation device, language model creation method, and computer-readable storage medium
JP7100747B2 (ja) 学習データ生成方法および装置
US9110871B2 (en) Correcting a document character size based on the average value of each character size
JP2008262279A (ja) 音声検索装置
JP5464209B2 (ja) 言語解析装置、方法、及びプログラム
US8650034B2 (en) Speech processing device, speech processing method, and computer program product for speech processing
US20100125459A1 (en) Stochastic phoneme and accent generation using accent class
JP5625827B2 (ja) 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム
US10061752B2 (en) Method and apparatus for generating a font of which style is changeable
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
KR101860472B1 (ko) 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
JP4055638B2 (ja) 文書処理装置
KR102284903B1 (ko) 입력 시퀀스 생성 방법 및 장치
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP2010170252A (ja) 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム
US20230205997A1 (en) Information processing apparatus, operation method of information processing apparatus, and operation program of information processing apparatus
WO2021166231A1 (ja) シナリオ生成装置、シナリオ生成方法、及びコンピュータ読み取り可能な記録媒体
JP2006277674A (ja) 文分割コンピュータプログラム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
Golcher A stable statistical constant specific for human language texts
JP2007058311A (ja) コーパス加算装置、及びコーパス加算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130924

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20131010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5464209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees