JP5256654B2 - 文章分割プログラム、文章分割装置および文章分割方法 - Google Patents

文章分割プログラム、文章分割装置および文章分割方法 Download PDF

Info

Publication number
JP5256654B2
JP5256654B2 JP2007173440A JP2007173440A JP5256654B2 JP 5256654 B2 JP5256654 B2 JP 5256654B2 JP 2007173440 A JP2007173440 A JP 2007173440A JP 2007173440 A JP2007173440 A JP 2007173440A JP 5256654 B2 JP5256654 B2 JP 5256654B2
Authority
JP
Japan
Prior art keywords
sentence
bar
measure
fixed
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007173440A
Other languages
English (en)
Other versions
JP2009015398A (ja
Inventor
秀 富士
友樹 長瀬
清司 大倉
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007173440A priority Critical patent/JP5256654B2/ja
Priority to US12/056,432 priority patent/US9009023B2/en
Publication of JP2009015398A publication Critical patent/JP2009015398A/ja
Application granted granted Critical
Publication of JP5256654B2 publication Critical patent/JP5256654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、文章分割プログラム、文章分割装置および文章分割方法に関する。
一般に、定型性の高い文章(例えば、特許分野における「請求項」の文章、料理分野における「レシピ」の文章など)に対して処理を行うにあたっては、文章を構成要素に分割してから処理を行うことで、処理の精度や効率が向上すると考えられている。例えば、機械翻訳のような言語処理システムによる処理を行うにあたっては、言語処理システムに入力された文章を予め短い単位に分割してから処理を行うことで、処理の精度が向上する。なぜなら、言語処理システムは、長い文章に対する処理の精度が低い一方で、短い文章に対する処理の精度が格段に高いからである。なお、人手による翻訳作業を行うにあたっても、翻訳対象の文章を予め短い単位に分割してから処理を行うことで、処理の効率が向上する。なぜなら、分割された文章は翻訳作業を行う人にとって見通しがよく、原文で出現する情報の順序関係を保持した訳文を作成し易いからである。
このため、従来より、定型性の高い文章に対して処理を行うシステムにおいて活用することを目的として、文章を自動的に分割する『自動分割技術』が開発されている。例えば、『表層上の手がかりによって文章を分割するシステム』や、『文法規則によって文章を分割するシステム』などである。また、自動分割技術に関連する技術として、『定型パターンを用いて翻訳を行うシステム』などもある。
上記したシステムについて簡単に説明すると、まず、『表層上の手がかりによって文章を分割するシステム』は、「〜し、」や「〜と、」などの正規表現を予め指定し、指定した正規表現に該当する箇所で文章を分割するものである。また、『文法規則によって文章を分割するシステム』は、構文解析の規則として分割箇所を見つけるような文法規則を予め作成し、作成した文法規則による構文解析を実行して文章を分割するものである。また、『定型パターンを用いて翻訳を行うシステム』は、「これは本(変数部分)です」などの定型パターンを予め作成し、入力された文章が定型パターンの変数部分を置換したものである場合に、定型パターンに沿った訳文を出力するものである。
なお、特許文献1には、システムが、入力された文章を解析する際の最小解析範囲を決定して表示部に表示し、システムの利用者が、最小解析範囲に関する修正指示を入力するなどして、文章を分割する技術が開示されている。また、特許文献2には、システムが、形態素をまとめ上げる辞書や規則を予め保持し、保持している辞書や規則にしたがって形態素のまとめ上げを行うなどして、文章を分割する技術が開示されている。
特開平10−49535号公報 特開平7−105214号公報
ところで、上記した従来の技術では、以下に説明するように、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることができないという課題があった。すなわち、例えば、『表層上の手がかりによって文章を分割するシステム』は、局所的な表層上の手がかりによって文章を分割するにすぎないことから、構文的なあいまい性に対応することができず、結果として、文章全体として妥当性の高い分割結果を得ることができない。また、例えば、『文法規則によって文章を分割するシステム』は、文法規則による構文解析を実行して文章を分割するにすぎないことから、定型の特徴に沿って分割することはできず、結果として、文章全体として妥当性の高い分割結果を得ることができない。また、例えば、『定型パターンを用いて翻訳を行うシステム』は、名詞句等を変数部分とする定型パターンを予め作成するにすぎないことから、そもそも入力された文章が定型パターンにヒットする確率が低い。なお、同様に、特許文献1や2に開示されている技術も、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることができるものではない。
また、上記した従来の技術では、以下に説明するように、上記の課題に加え、定型性の高い文章を、簡易かつ柔軟に分割することができないという課題があった。すなわち、例えば、『文法規則によって文章を分割するシステム』において、文法規則を作成することができるのは、システムを熟知した開発者に限られることから、文法規則は、システムに作り付けの状態で提供されることになる。そうであるとすると、システムの利用者は、定型の特徴に沿って文法規則をチューニングすることができず、また、システムが対応していない新規の文種(文章の種類)に関する文法規則を作成することもできないので、定型性の高い文章を、簡易かつ柔軟に分割することができない。
また、上記した従来の技術では、以下に説明するように、上記の課題に加え、複数の分割候補が結果として得られた場合に、最適な候補を選択することができないという課題があった。すなわち、例えば、『定型パターンを用いて翻訳を行うシステム』において、文章を定型パターンにヒットさせると、複数の定型パターンにヒットする場合があるが、このような場合に、最適な定型パターンを選択することができない。
また、上記した従来の技術では、以下に説明するように、上記の課題に加え、長い文章に対応することができないという課題があった。すなわち、例えば、『文法規則によって文章を分割するシステム』等に関連する一般的な構文解析システムにおいて、先に文章全体の構文解析を実行してから分割箇所を見つける手法の場合には、入力された文章が長いと、そもそも構文解析自体に失敗してしまい、文章を分割することができない。
そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることが可能な文章分割プログラム、文章分割装置および文章分割方法を提供することを第一の目的とする。
また、この発明は、上記の目的に加え、定型性の高い文章を、簡易かつ柔軟に分割することが可能な文章分割プログラム、文章分割装置および文章分割方法を提供することを第二の目的とする。
また、この発明は、上記の目的に加え、複数の分割候補が結果として得られた場合に、最適な候補を選択することが可能な文章分割プログラム、文章分割装置および文章分割方法を提供することを第三の目的とする。
また、この発明は、上記の目的に加え、長い文章に対応することが可能な文章分割プログラム、文章分割装置および文章分割方法を提供することを第四の目的とする。
上述した課題を解決し、目的を達成するため、本発明は、文章の構造に特有の定型性を有する定型文章を分割する文章分割方法をコンピュータに実行させる文章分割プログラムであって、前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手順と、前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記小節列生成手順によって生成された小節列と当該記憶部に記憶されている構造パターンとを照合する照合手順と、前記照合手順によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択手順と、をコンピュータに実行させることを特徴とする。
また、本発明は、上記の発明において、前記照合手順によって照合された結果、複数の構造パターンが前記小節列と一致すると照合された場合に、前記小節列と当該複数の構造パターン各々との一致の度合いを評価する評価手順と、前記評価手順によって評価された結果に従って、前記照合手順によって前記小節列と一致すると照合された複数の構造パターンの順序をソートするソート手順とをさらにコンピュータに実行させることを特徴とする。
また、本発明は、上記の発明において、前記小節列生成手順によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析手順と、前記係受け解析手順によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成手順とをさらにコンピュータに実行させ、前記照合手順は、前記骨格小節列作成手順によって作成された骨格小節列と前記構造パターンとを照合することを特徴とする。
また、本発明は、文章の構造に特有の定型性を有する定型文章を分割する文章分割装置であって、前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義を予め記憶している小節定義記憶手段と、前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンを予め記憶している構造パターン記憶手段と、分割対象となる定型文章を前記小節定義記憶手段に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手段と、前記小節列生成手段によって生成された小節列と前記構造パターン記憶手段に記憶されている構造パターンとを照合する照合手段と、前記照合手段によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択手段と、を備えたことを特徴とする。
また、本発明は、文章の構造に特有の定型性を有する定型文章を分割する文章分割方法であって、前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成工程と、前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記小節列生成工程によって生成された小節列と当該記憶部に記憶されている構造パターンとを照合する照合工程と、前記照合工程によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択工程と、を含んだことを特徴とする。
本発明によれば、文章の構造に特有の定型性を有する定型文章を分割する文章分割方法をコンピュータに実行させる文章分割プログラムであって、構造との関係で定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成し、定型文章に適した構造が利用者によって小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、生成した小節列と記憶部に記憶されている構造パターンとを照合し、小節列と一致すると照合された構造パターンを定型文章の分割結果として選択するので、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることが可能になる。また、請求項1、4または5の発明によれば、定型性の高い文章を、簡易かつ柔軟に分割することが可能になる。
また、本発明によれば、照合した結果、複数の構造パターンが小節列と一致すると照合された場合に、小節列と複数の構造パターン各々との一致の度合いを評価し、評価した結果に従って、小節列と一致すると照合された複数の構造パターンの順序をソートするので、複数の分割候補が結果として得られた場合に、最適な候補を選択することが可能になる。
また、本発明によれば、生成した小節列について、小節列を構成する小節間の係受けを解析し、解析した結果に従って、定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、小節列を骨格小節のみの骨格小節列とし、作成した骨格小節列と構造パターンとを照合するので、長い文章であっても単純な構造パターンで記述することが可能になる。
以下に添付図面を参照して、本発明に係る文章分割プログラム、文章分割装置および文章分割方法の実施例を詳細に説明する。なお、以下では、以下の実施例で用いる主要な用語、実施例1に係る文章分割装置の概要および特徴、実施例1に係る文章分割装置の構成および処理の手順、実施例1の効果を順に説明し、次に、他の実施例について説明する。
[用語の説明]
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「文章」とは、形態素(意味を有する最小の言語単位)で構成された一つもしくは複数の文のことである。例えば、「文章」とは、『生姜をすりおろし、肉を食べやすい大きさに切り、よく混ぜ合わせる。』などの文のことである。
ところで、「文章」は、一般的には、「文章」の書き手や話し手によって自由な「構造」で作成されるものであるが、このような自由な「構造」の「文章」の他に、「定型性」を有する「定型文章」というものが存在する。
ここでいう「定型性」とは、「文章」の属する分野などによって、当該「文章」の「構造」が、ある程度限定的に(型にあてはめられるように)定められる性質のことである。具体的に例を挙げて説明すると、『生姜をすりおろし、肉を食べやすい大きさに切り、よく混ぜ合わせる。』という「文章」が、料理の分野における「定型文章」であるとする。仮に、料理の分野における「定型文章」の「定型」が、動詞連用中止形の後に読点が連接する表現(例えば、『〜し、』など)が料理の準備手順を表し、動詞終止形の後に句点が連接する表現(例えば、『〜する。』など)が準備手順で準備してきた食材に対する処理を表す、というものであるとすると、『生姜をすりおろし、』が、料理の準備手順の一つであり、『肉を食べやすい大きさに切り、』が、料理の準備手順の一つであり、『よく混ぜ合わせる。』が、すりおろした生姜や食べやすい大きさに切った肉に対する処理であるということになる。
もっとも、「定型性」は、どの「文章」にもあてはまるというものではない。例えば、『電話し、夕食を食べて、寝る。』という「文章」において、『電話し、』や『夕食を食べて、』は、動詞連用中止形の後に読点が連接する表現であるが、料理の準備手順を表すものではなく、『寝る。』は、動詞終止形の後に句点が連接する表現であるが、準備手順で準備してきた食材に対する処理を表すものではない。すなわち、「定型性」とは、「文章」の属する分野などによって、当該「文章」に特有なものであると考えられる。
上記してきたように、「定型文章」は、一般的な「文章」とは異なり、その「構造」に特有の「定型性」を有するものであることから、このような「定型性」の高い文章を分割する際には、文章全体として妥当性の高い分割結果を得ることができるのではないかとの期待がある。本発明に係る文章分割装置は、このような期待に応えるべく、「定型性」の高い「文章」を分割する際に、文章全体として妥当性の高い分割結果を得ることを目的の一つとするものである。
なお、以下の実施例においては、「文章」として日本語の「文章」を想定し、本発明に係る文章分割装置が、日本語の「文章」を分割する事例について説明するが、本発明はこれに限られるものではない。日本語以外の他の言語の「文章」を想定し、本発明に係る文章分割装置が、日本語以外の他の言語の「文章」を分割する事例にも、本発明を同様に適用することができる。また、以下の実施例においては、「文章」として一つの文を想定し、本発明に係る文章分割装置が、一つの文を分割する事例について説明するが、本発明はこれに限られるものではない。「文章」として複数の文を想定し、本発明に係る文章分割装置が、複数の文を分割する事例にも、本発明を同様に適用することができる。
[実施例1に係る文章分割装置の概要および特徴]
続いて、図1を用いて、実施例1に係る文章分割装置の概要および特徴を説明する。図1は、実施例1に係る文章分割装置の概要および特徴を説明するための図である。
実施例1に係る文章分割装置は、上記したように、文章の構造に特有の定型性を有する定型文章を分割することを概要とし、文章全体として妥当性の高い分割結果を得ることを主たる特徴とする。
この主たる特徴について簡単に説明すると、実施例1に係る文章分割装置は、図1に示すように、小節定義記憶部に、小節定義を予め記憶している。ここで、小節定義とは、定型文章の構造との関係で当該定型文章の分割に適した箇所が、利用者によって文章の属性情報を用いて表現されたものである。図1の例で説明すると、小節定義記憶部は、料理の分野における定型文章の分割に適した小節定義を記憶するものであり、「*+連用中止句+読点」、「*+動詞連用形」および「*+動詞終止形+句点」を予め記憶している。このように、図1の例では、小節定義は、形態素をまとめ上げた文節列の右端の表現で表現されている。
「*+連用中止句+読点」は、動詞連用中止形の後に読点が連接する表現(例えば、『〜し、』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。また、「*+動詞連用形」は、動詞連用形の表現(例えば、『〜して』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。また、「*+動詞終止形+句点」は、動詞終止形の後に句点が連接する表現(例えば、『〜する。』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。なお、(連中)、(連用)および(終止)は、各々の小節定義について小節ラベルを付与したものである。
また、実施例1に係る文章分割装置は、図1に示すように、定型パターン記憶部に、定型パターン(特許請求の範囲に記載の「構造パターン」に対応する)を予め記憶している。ここで、定型パターンとは、定型文章の構造として適した構造が、利用者によって、小節定義ごとの組み合わせとして表現されたものである。図1の例で説明すると、定型パターン記憶部は、料理の分野における定型文章の構造パターンを記憶するものであり、「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」の定型パターンを記憶している。このように、図1の例では、定型パターンは、小節ラベルの組み合わせとして表現されている。
〔準備1〕〜〔準備3〕は、各々料理の準備手順を表し、〔処理〕は、準備手順で準備してきた食材に対する処理を表す意味である。つまり、「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」は、定型文章の小節列の小節ラベルが「(連中)+(連中)+(連用)+(終止)」である場合は、当該定型文章は、前から料理の準備手順が3つ並び、最後が準備手順で準備してきた食材に対する処理である構造であることを意味している。なお、図1の例においては、説明の便宜上から、定型パターン記憶部が、定型パターンとして1つの定型パターンのみを記憶している事例を説明するが、本発明はこれに限られるものではなく、定型パターンとして複数の定型パターンを記憶していてもよい。
このような構成のもと、実施例1に係る文章分割装置は、まず、分割対象となる定型文章を、小節定義記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する(図1の(1)を参照)。
例えば、実施例1に係る文章分割装置は、分割対象となる定型文章『生姜をすりおろし、肉を食べやすい大きさに切り、ネギを刻んでよく混ぜ合わせる。』を、小節定義に基づいて分割すると、『生姜をすりおろし、』が「*+連用中止句+読点」に該当するので小節として分割され、『肉を食べやすい大きさに切り、』が「*+連用中止句+読点」に該当するので小節として分割され、『ネギを刻んで』が「*+動詞連用形」に該当するので小節として分割され、『よく混ぜ合わせる。』が「*+動詞終止形+句点」に該当するので小節として分割される。そして、文章分割装置は、『生姜をすりおろし、』と『肉を食べやすい大きさに切り、』と『ネギを刻んで』と『よく混ぜ合わせる。』とを並べた小節列を生成する。
次に、文章分割装置は、生成された小節列と、定型パターン記憶部に記憶されている定型パターンとを照合する(図1の(2)を参照)。
例えば、文章分割装置は、(連中)の小節ラベルで定義されている『生姜をすりおろし、』、(連中)の小節ラベルで定義されている『肉を食べやすい大きさに切り、』、(連用)の小節ラベルで定義されている『ネギを刻んで』、および、(終止)の小節ラベルで定義されている『よく混ぜ合わせる。』から成る小節列と、定型パターン「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」とを照合する。
続いて、文章分割装置は、小節列と一致すると照合された定型パターンを、定型文章の分割結果として選択する(図1の(3)を参照)。
図1の例で説明すると、小節列と定型パターンとが一致するので、例えば、定型パターン「〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」を、定型文章の分割結果として選択する。なお、文章分割装置は、例えば、定型文章の分割結果として選択された定型パターンと小節列とを対応付けて、ディスプレイやプリンタあるいは記憶部などに出力するなどしてもよい。
このようなことから、実施例1に係る文章分割装置は、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることが可能になる。
[実施例1に係る文章分割装置の構成]
次に、図2〜9を用いて、実施例1に係る文章分割装置の構成を説明する。図2は、実施例1に係る文章分割装置の構成を示すブロック図であり、図3は、実施例1における小節定義記憶部(小節定義の例)について説明するための図であり、図4は、実施例1における定型パターン記憶部(構造パターンの例)について説明するための図であり、図5は、実施例1における入力文受付部(入力文)について説明するための図であり、図6は、実施例1における文節合成部(入力文の文節列)について説明するための図であり、図7は、実施例1における小節合成部(小節定義の適用)について説明するための図であり、図8は、実施例1における小節合成部(小節定義適用結果)について説明するための図であり、図9は、実施例1における定型パターン適用部(構造パターン適用結果)について説明するための図である。
図2に示すように、実施例1に係る文章分割装置10は、入力部11と、出力部12と、入出力制御I/F部13と、記憶部20と、制御部30とから構成される。
入力部11は、制御部30による各種処理に用いるデータや、各種処理をするための操作指示などを入力するキーボード、マウス、記憶媒体または通信部などである。具体的には、入力部11は、後述する入力文受付部31によって受け付けられる定型文章を入力したり、後述する小節定義記憶部21に登録される小節定義や、定型パターン記憶部22に登録される定型パターンなどを入力するなどする。また、入力部11は、後述する形態素解析部32などによる処理に関する操作指示を入力するなどする。
出力部12は、制御部30による各種処理の結果や、各種処理を実行するための操作指示などを出力するディスプレイやプリンタなどである。具体的には、出力部12は、入力部11によって、定型文章や小節定義、定型パターンなどを入力させるための画面や、後述する結果表示部36によって表示される分割結果などを出力するなどする。
入出力制御I/F部13は、入力部11および出力部12と、記憶部20および制御部30との間におけるデータ転送を制御する。
記憶部20は、制御部30による各種処理に用いるデータを記憶し、特に本発明に密接に関連するものとしては、図2に示すように、小節定義記憶部21と定型パターン記憶部22とを備える。なお、小節定義記憶部21は、特許請求の範囲に記載の「記憶部」に対応し、定型パターン記憶部22は、特許請求の範囲に記載の「記憶部」に対応する。
小節定義記憶部21は、小節定義を記憶する。ここで、小節定義とは、文章の構造との関係で定型文章の分割に適した箇所が、利用者によって文章の属性情報を用いて表現されたものである。具体的には、小節定義記憶部21は、文章分割装置10による文章分割処理を行う前に、予め小節定義を記憶しており、記憶している小節定義は、後述する小節合成部34などによる処理に利用される。
例えば、小節定義記憶部21は、図3に示すような小節定義を記憶する。図3の例で説明すると、小節定義記憶部21は、料理の分野における定型文章の分割に適した小節定義を、<定型の小節>として表現されるものと、<係り先候補の小節>として表現されるものとに区別して記憶している。また、小節定義記憶部21は、形態素をまとめ上げた文節列の右端の表現で表現されている小節定義を記憶している。
<定型の小節>として表現される小節定義は、「*+連用中止句+読点」である。「*+連用中止句+読点」は、動詞連用中止形の後に読点が連接する表現(例えば、『〜し』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。これに対して、<係り先候補の小節>として表現される小節定義は、「*+動詞連用形」および「*+動詞終止形+句点」である。「*+動詞連用形」は、動詞連用形の表現(例えば、『〜して』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。また、「*+動詞終止形+句点」は、動詞終止形の後に句点が連接する表現(例えば、『〜する。』など)を右端として、左隣の小節の直前の文節まで伸ばしたものを、小節としてまとめ上げることを意味している。なお、(連中)、(連用)および(終止)は、各々の小節定義について便宜上から小節ラベルを付与したものである。
ここで、<係り先候補の小節>とは、例えば、『〜し、』という表現を受ける可能性のある小節のことである。例えば、『〜し、〜し、○○する××を□□する』という文章では、構文的には、『〜し、』を受ける可能性のある係り先候補として、『○○する』および『□□する』の2者が考えられる。定型文章を分割する際、最終的には、文章全体のバランスや意味属性などから、意味的に妥当な係り先を決定することになるが、文章分割処理の最小単位である小節定義の時点では、可能性のある両方の候補を定義しておくのである。
ところで、文章分割装置10が定型性の高い文章を分割する際には、後述する定型パターン記憶部22に記憶されている定型パターンと分割対象となる文章とを照合(マッチ)させる枠組みが必要となるが、この時、定型パターンと文章との照合は、表層上の文字列自体ではなく、形態素や文節など文章の構造(構文構造)を反映した要素に対して行えることが望ましい。また、長文の文章は、多数の形態素や文節で構成されることから、これらを予めまとめ上げ、解析候補として可能な数を予め絞っておくことが、解析や照合の精度を向上させる意味でも望ましい。小節定義は、これらの点を満たすものとして、利用者によって表現されるものである。
また、かかる小節定義は、単なる表層上の手がかりである正規表現とは異なるものであることはもちろんのこと、従来の構文解析システムなどにおいて利用されてきた文法規則とも全く異なるものである。すなわち、文法規則は、システムを熟知した開発者によって作成されるもので、一般に、複雑なものである。結果として、文法規則は、システムに作り付けの状態で提供されることになることから、システムの利用者は、定型の特徴に沿って文法規則をチューニングすることができず、また、システムが対応していない新規の文種(文章の種類)に関する文法規則を作成することもできない。
これに対し、小節定義は、文章の属する分野に関する知識を持った者であれば、非技術者である利用者であっても作成できるもので、一般に、簡単なものである。結果として、小節定義は、システムに作り付けの状態で提供されることにはならず、システムの利用者は、定型の特徴に沿って小節定義をチューニングすることができ、また、システムが対応していない新規の文種(文章の種類)に関する小節定義を作成することもできる。
定型パターン記憶部22は、定型パターンを記憶する。ここで、定型パターンとは、定型文章に適した構造が、利用者によって小節定義ごとの組み合わせとして表現されたもの(小節を単位として定型文章の構造を記述したもの)である。具体的には、定型パターン記憶部22は、文章分割装置10による文章分割処理を行う前に、予め定型パターンを記憶しており、記憶している定型パターンは、後述する定型パターン適用部35などによる処理に利用される。
例えば、定型パターン記憶部22は、図4に示すような定型パターンを記憶する。図4の例で説明すると、定型パターン記憶部22は、料理の分野における定型文章の構造パターンを記憶している。ここで、『P1』、『P2』および『P3』などは、定型パターンの識別番号を表し、識別番号の右手は、マッチ対象である入力小節列を小節定義単位に記述したものである。また、『→』の次の行は、マッチした小節に対応する定型パターンを記述したものである。ここで、入力小節列は、『(連中)』のような小節ラベルを用いて記述され、定型パターンは、『〔準備1〕』のような構造ラベルを用いて記述される。また、小節列、定型パターンともに、『+』は、連接を表す。
『P1』と『P2』とでは、小節ラベルの数と構造ラベルの数とは一致しており、1対1で対応する。なお、『P3』の入力における『((連用)+(終止))』は、小節ラベルをまとめることを表し、入力の『(連用)+(終止)』は、出力の『〔処理〕』と対応することを表す。
また、〔準備1〕〜〔準備4〕は、各々料理の準備手順を表し、〔処理〕は、準備手順で準備してきた食材に対する処理を表す意味である。つまり、例えば、「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」は、定型文章の小節列の小節ラベルが「(連中)+(連中)+(連用)+(終止)」である場合は、当該定型文章は、前から料理の準備手順が3つ並び、最後が準備手順で準備してきた食材に対する処理である構造であることを意味している。
かかる定型パターンは、小節定義同様、従来の構文解析システムなどにおいて利用されてきた文法規則と全く異なるものである。すなわち、定型パターンは、文章の属する分野に関する知識を持った者であれば、非技術者である利用者であっても作成できるもので、一般に、簡単なものである。結果として、定型パターンは、システムに作り付けの状態で提供されることにはならず、システムの利用者は、定型の特徴に沿って定型パターンをチューニングすることができ、また、システムが対応していない新規の文種(文章の種類)に関する定型パターンを作成することもできる。
制御部30は、文章分割装置10を制御して各種処理を実行し、特に本発明に密接に関連するものとしては、図2に示すように、入力文受付部31と、形態素解析部32と、文節合成部33と、小節合成部34と、定型パターン適用部35と、結果表示部36とを備える。なお、小節合成部34は、特許請求の範囲に記載の「小節列生成手順」に対応し、定型パターン適用部35は、特許請求の範囲に記載の「照合手順」および「選択手順」に対応する。
入力文受付部31は、文章分割装置10において文章分割処理の対象となる定型文章の入力を受け付ける。具体的には、入力文受付部31は、入力部11によって入力された定型文章を受け付け、受け付けた定型文章は、形態素解析部32による処理に利用されるなどする。例えば、入力文受付部31は、図5に示すような定型文章を受け付ける。図5の例で説明すると、入力文受付部31は、『生姜をすりおろし、肉を食べやすい大きさに切り、ネギを刻んでよく混ぜ合わせる。』という定型文章を受け付ける。
形態素解析部32は、定型文章の形態素を解析する。具体的には、形態素解析部32は、入力文受付部31によって受け付けられた定型文章を形態素に解析し、形態素に解析した定型文章は、文節合成部33による処理に利用されるなどする。
文節合成部33は、形態素に解析された定型文章の文節を合成する。具体的には、文節合成部33は、形態素解析部32によって形態素に解析された定型文章から文節列を生成し、生成した文節列は、小節合成部34による処理に利用されるなどする。例えば、文節合成部33は、図6に示すように、文節を合成し、文節列を生成する。図6の例で説明すると、文節合成部33は、『生姜を』、『すりおろし、』、『肉を』、『食べやすい』、『大きさに』、『切り、』、『ネギを』、『刻んで』、『よく』、『混ぜ合わせる。』のように文節を合成し、文節を並べた文節列を生成する。なお、文節合成部33によるこのような処理は、従来技術である文節合成を行うことで実現することができる。
小節合成部34は、定型文章を小節定義に基づいて合成し、合成後の小節を並べた小節列を生成する。具体的には、小節合成部34は、文節合成部33によって生成された文節列から、小節定義記憶部21によって記憶されている小節定義に基づいて小節列を生成し、生成した小節列は、定型パターン適用部35による処理に利用されるなどする。例えば、小節合成部34は、図7に示すように、小節を合成し、小節列を生成する。図7の例で説明すると、小節合成部34は、『生姜をすりおろし、』、『肉を食べやすい大きさに切り、』、『ネギを刻んで』、『よく混ぜ合わせる。』のように小節を合成し、小節を並べた小節列を生成する。
例えば、小節合成部34は、分割対象となる定型文章『生姜をすりおろし、肉を食べやすい大きさに切り、ネギを刻んでよく混ぜ合わせる。』を、小節定義記憶部21によって記憶されている小節定義に基づいて分割すると、図7に示すように、『生姜をすりおろし、』が「*+連用中止句+読点」に該当するので小節として分割され、『肉を食べやすい大きさに切り、』が「*+連用中止句+読点」に該当するので小節として分割され、『ネギを刻んで』が「*+動詞連用形」に該当するので小節として分割され、『よく混ぜ合わせる。』が「*+動詞終止形+句点」に該当するので小節として分割される。そして、文章分割装置は、『生姜をすりおろし、』と『肉を食べやすい大きさに切り、』と『ネギを刻んで』と『よく混ぜ合わせる。』とを並べた小節列を生成する。このようにして、小節合成部34は、図8に示すような小節列を生成する。
定型パターン適用部35は、小節列と定型パターンとを照合し、一致すると照合されたパターンを、定型文章の分割結果として選択する。具体的には、定型パターン適用部35は、小節合成部34によって生成された小節列と、定型パターン記憶部22によって記憶されている定型パターンとを照合し、小節列と一致すると照合された定型パターンを、定型文章の分割結果として選択し、選択した定型パターンは、結果表示部36による処理に利用されるなどする。
例えば、定型パターン適用部35は、(連中)の小節ラベルが付与されている『生姜をすりおろし、』、(連中)の小節ラベルが付与されている『肉を食べやすい大きさに切り、』、(連用)の小節ラベルが付与されている『ネギを刻んで』、および、(終止)の小節ラベルが付与されている『よく混ぜ合わせる。』から成る小節列と、定型パターン『P1』である「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」とを照合し、小節列と定型パターン『P1』とが一致するので、図9に示すように、定型パターン『P1』である「〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」を、定型文章の分割結果として選択する。
なお、実施例1における定型パターン適用部35は、小節合成部34によって生成された小節列が入力された際、ファイルの先頭から定型パターン(先頭パターンである『P1』)との照合を行い、『P2』、『P3』と照合を進めて、最初にマッチした定型パターンのところで処理を終了する(ここでは、『P1』で入力文とマッチするので、ここで処理を終了し、『P1』の構造ラベル列を出力として得る)が、本発明はこれに限られるものではなく、実施例2において説明するように、全ての定型パターンとの照合を各々行い、マッチ度が最大である定型パターンを一つ選択するなどしてもよい。
結果表示部36は、定型文章の分割結果を表示する。具体的には、結果表示部36は、定型パターン適用部35によって選択された定型パターンを、出力部12に出力するなどする。例えば、結果表示部36は、定型文章の分割結果として選択された定型パターンと小節列とを対応付けて、図9に示すような形式(構造要素の列とそれぞれの構造ラベルとを対応づけた形式など)で、ディスプレイやプリンタあるいは記憶部などに出力するなどしてもよい。
[実施例1に係る文章分割装置による処理の手順]
次に、図10を用いて、実施例1に係る文章分割装置による処理の手順を説明する。図10は、実施例1に係る文章分割装置による処理の手順を示すフローチャートである。
まず、実施例1に係る文章分割装置10は、入力文受付部31において、入力文(文章分割処理の対象となる定型文章)を受け付けたか否かを判定する(ステップS101)。入力文を受け付けていない場合には(ステップS101否定)、文章分割装置10は、入力文受付部31において、入力文を受け付けたか否かを判定する処理に戻る。
一方、入力文を受け付けた場合には(ステップS101肯定)、文章分割装置10は、次に、形態素解析部32において、入力文から形態素列を得る(ステップS102)。そして、文章分割装置10は、文節合成部33において、形態素列から文節列を得る(ステップS103)。
続いて、文章分割装置10は、小節合成部34において、文節列から小節列を得る(ステップS104)。具体的には、文章分割装置10は、小節合成部34において、小節定義記憶部21によって記憶されている小節定義に基づいて、小節列を得る。
そして、文章分割装置10は、定型パターン適用部35において、小節列に対して定型パターンを適用し、結果を一つ得る(ステップS105)。具体的には、文章分割装置10は、定型パターン適用部35において、定型パターン記憶部22によって記憶されている定型パターンを参照しながら、マッチする定型パターンを探索し、最初にマッチした定型パターンのところで処理を終了する。
その後、文章分割装置10は、結果表示部36において、得られた定型パターンを表示する(ステップS106)。なお、実施例1に係る文章分割装置10は、入力文から形態素列を得て、形態素列から文節列を得た上で、小節列を生成する手法について説明したが、本発明はこれに限られるものではなく、入力文から形態素列を得て、形態素列から直接小節列を生成したり、入力文から直接小節列を生成する手法などにも、本発明を同様に適用することができる。
このようなことから、実施例1に係る文章分割装置は、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることが可能になる。
[実施例1の効果]
上記してきたように、実施例1によれば、文章の構造に特有の定型性を有する定型文章を分割する文章分割方法をコンピュータに実行させる文章分割プログラムであって、構造との関係で定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成し、定型文章に適した構造が利用者によって小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、生成した小節列と記憶部に記憶されている構造パターンとを照合し、小節列と一致すると照合された構造パターンを定型文章の分割結果として選択するので、定型性の高い文章を分割する際に、文章全体として妥当性の高い分割結果を得ることが可能になる。また、実施例1によれば、定型性の高い文章を、簡易かつ柔軟に分割することが可能になる。
具体的に説明すると、文章分割装置が定型性の高い文章を分割する際には、利用者によって指定された構造パターン(定型パターン)と、分割対象となる文章とを、照合(マッチ)させる枠組みが必要となる。この時、構造パターンと文章との照合は、表層上の文字列自体ではなく、形態素や文節など文章の構造(構文構造)を反映した要素に対して行えることが望ましい。また、長文の文章は、多数の形態素や文節で構成されることから、これらを予めまとめ上げ、解析候補として可能な数を予め絞っておくことが、解析や照合の精度を向上させる意味でも望ましい。
実施例1によれば、定型の特徴に沿って形態素や文節をまとめた単位を「小節」と呼び、「小節」によって形態素や文節を予めまとめ上げることから、解析や照合の精度を向上させることが可能になる。いわば、定型文章に対する表層的なパターンマッチ処理に、「小節」という構文的な要素を導入することによって、両者の融合を図ることが可能になる。また、利用者によって記述される構造パターンをシンプルなものにすることが可能になり、ひいては、システムを熟知した開発者ではなく、文章の属する分野に関する知識を持った非技術者である利用者であっても、簡単な構造パターンを記述するだけで、文章の分割箇所を指定することが可能になる。
ところで、これまで、実施例1として、文章分割装置が、生成した小節列と複数の定型パターンとを照合し、最初に小節列と一致すると照合された定型パターンを分割結果として選択する手法について説明してきた。しかしながら、本発明はこれに限られるものではない。文章分割装置が、生成した小節列と複数の定型パターンとを照合し、小節列と一致すると照合された定型パターンの内、最適な定型パターンを分割結果として選択する手法にも、本発明を同様に適用することができる。言い換えると、文章分割装置は、複数の構造的な可能性を出し、その中から最適と思われる候補を選び出すことで、解析や照合の精度をさらに向上させることが可能になるのである。以下では、実施例2として、最適な定型パターンを分割結果として選択する手法について説明する。なお、実施例2に係る文章分割装置について、実施例1に係る文章分割装置と同様の部分については説明を割愛することとし、実施例2に係る文章分割装置に特徴的な機能を中心に説明することとする。
[実施例2に係る文章分割装置の構成]
まず、図11〜19を用いて、実施例2に係る文章分割装置の構成を説明する。図11は、実施例2に係る文章分割装置の構成を示すブロック図であり、図12は、実施例2における加点表記憶部(加点の例)について説明するための図であり、図13は、実施例2における入力文受付部(入力文)について説明するための図であり、図14は、実施例2における文節合成部(入力文の文節列)について説明するための図であり、図15は、実施例2における小節合成部(小節定義の適用)について説明するための図であり、図16は、実施例2における小節合成部(小節定義適用結果)について説明するための図であり、図17は、実施例2における複数定型パターン適用部(構造パターン適用結果)について説明するための図であり、図18は、実施例2における候補群ソート部(加点の適用結果)について説明するための図であり、図19は、実施例2における候補群ソート部(ソート後構造パターン出力結果)について説明するための図である。
図11に示すように、実施例2に係る文章分割装置10は、実施例1における定型パターン適用部35が複数定型パターン適用部35aに置き換えられ、また、記憶部20に加点表記憶部23が追加され、さらに、制御部30に候補群ソート部37が追加されている点で、実施例1と異なる。なお、図11において、点線は、実施例2に係る文章分割装置10が実施例1に係る文章分割装置と同様の構成である部分、実線は、実施例2に係る文章分割装置10が実施例1に係る文章分割装置と異なる構成である部分を示す意味で、便宜上用いるものである。
まず、実施例1に係る文章分割装置10と異なる部について特に説明すると、加点表記憶部23は、小節列と複数の定型パターン各々との一致の度合いを評価する加点表を記憶する。具体的には、加点表記憶部23は、複数定型パターン適用部35aによって小節列と一致すると照合された複数の定型パターン各々について、小節列との一致の度合いを評価する加点表を記憶しており、記憶している加点表は、後述する候補群ソート部37による処理に利用される。
例えば、加点表記憶部23は、図12に示すような加点表を記憶する。図12の例で説明すると、加点表記憶部23は、小節列と一致すると照合された複数の定型パターン(候補)各々について、並列構造に対する加点を規定している。並列構造に対する加点とは、並列要素数と一致加点との乗算によって得られるものである。
<格要素の一致>において、『(a)』、『(b)』、および『(c)』は、加点項目の識別番号を表す。例えば、(a)は、『すべての並列要素が「は格」を含む場合』には、加点として「+3」を加えることを規定している。つまり、定型文章として、例えば、『Aは〜し、Bは〜し、Cは〜する。』という文章が入力された場合、並列要素数は『3』となり、すべての並列要素が「は格」を持っていることから、格要素による一致加点『3』が得られ、その乗算である3×3=9が、総合加点となる。
その他の規定についても説明すると、<格要素の一致>において、例えば、(b)は、『すべての並列要素が「を格」を含む場合』には、加点として「+3」を加えることを規定しており、(c)は、『すべての並列要素が「に格」を含む場合』には、加点として「+2」を加えることを規定している。また、<右端動詞の一致>において、例えば、(d)は、『右端動詞がすべて同一動詞』の場合には、加点として「+5」を加えることを規定し、(e)は、『右端動詞がすべて同一態』の場合には、加点として「+3」を加えることを規定している。また、<文節数の一致>において、例えば、(f)は、『すべての並列要素が同じ文節数を含む場合』には、加点として「+2」を加えることを規定している。
かかる加点表は、小節定義や定型パターン同様、従来の構文解析システムなどにおいて利用されてきた文法規則とは全く異なるものである。すなわち、加点表は、文章の属する分野に関する知識を持った者であれば、非技術者である利用者であっても作成できるもので、一般に、簡単なものである。結果として、加点表は、システムに作り付けの状態で提供されることにはならず、システムの利用者は、定型の特徴に沿って加点表をチューニングすることができ、また、システムが対応していない新規の文種(文章の種類)に関する加点表を作成することもできる。
複数定型パターン適用部35aは、実施例1と同様、小節列と定型パターンとを照合するが、最初に小節列と一致すると照合された定型パターンを分割結果として選択するのではなく、生成した小節列と複数の定型パターンとを照合し、小節列と一致すると照合された定型パターンを、全て分割結果として選択する点で、実施例1とは異なるものである。
候補群ソート部37は、分割結果として選択される複数の定型パターン(候補群)をソートする。具体的には、候補群ソート部37は、複数定型パターン適用部35aによって照合された結果、複数の定型パターンが小節列と一致すると照合された場合に、小節列と複数の定型パターン各々との一致の度合いを、加点表記憶部23によって記憶されている加点表に基づいて評価し、評価した結果に従って、小節列と一致すると照合された複数の定型パターンの順序をソートする。例えば、候補群ソート部37は、加点表記憶部23によって記憶されている加点表を参照し、マッチした複数の定型パターン各々全てについて加点を行い、加点の点数順に定型パターン候補をソートする。なお、候補群ソート部37は、特許請求の範囲に記載の「評価手順」と「ソート手順」とに対応する。
それでは、以下に、図13〜19に示す例を用いて、実施例2に係る文章分割装置10の一連の処理について説明する。なお、実施例2においては、構造の類似した『文1』と『文2』とを用いて説明する。
実施例2における入力文受付部31は、例えば、図13に示すような定型文章を受け付ける。図13の例で説明すると、入力文受付部31は、『生姜をすりおろし、肉を食べやすい大きさに切り、ネギを刻んでよく混ぜ合わせる。』という『文1』の定型文章と、『生姜をすりおろし、肉を食べやすい大きさに切り、熱した鍋に投入して炒める。』という『文2』の定型文章を受け付ける。
実施例2における文節合成部33は、例えば、図14に示すように、文節を合成し、文節列を生成する。図14の例で説明すると、文節合成部33は、『生姜を』、『すりおろし、』、『肉を』、『食べやすい』、『大きさに』、『切り、』、『ネギを』、『刻んで』、『よく』、『混ぜ合わせる。』のように『文1』の文節を合成し、文節を並べた文節列を生成する。また、文節合成部33は、『生姜を』、『すりおろし、』、『肉を』、『食べやすい』、『大きさに』、『切り、』、『熱した』、『鍋に』、『投入して』、『炒める。』のように『文2』の文節を合成し、文節を並べた文節列を生成する。
実施例2における小節合成部34は、例えば、図15に示すように、小節を合成し、小節列を生成する。図15の例で説明すると、小節合成部34は、『生姜をすりおろし、』、『肉を食べやすい大きさに切り、』、『ネギを刻んで』、『よく混ぜ合わせる。』のように『文1』の小節を合成し、小節を並べた小節列を生成する。また、小節合成部34は、『生姜をすりおろし、』、『肉を食べやすい大きさに切り、』、『熱した鍋に投入して』、『炒める。』のように『文2』の小節を合成し、小節を並べた小節列を生成する。このようにして、小節合成部34は、図16に示すような小節列を生成する。
複数定型パターン適用部35aは、例えば、実施例1と同様、(連中)の小節ラベルで定義されている『生姜をすりおろし、』、(連中)の小節ラベルで定義されている『肉を食べやすい大きさに切り、』、(連用)の小節ラベルで定義されている『ネギを刻んで』、および、(終止)の小節ラベルで定義されている『よく混ぜ合わせる。』から成る小節列と、定型パターン『P1』である「(連中)+(連中)+(連用)+(終止)→〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」とを照合し、小節列と定型パターン『P1』とが一致するので、図17に示すように、定型パターン『P1』である「〔準備1〕+〔準備2〕+〔準備3〕+〔処理〕」を、定型文章の分割結果として選択する。
また、複数定型パターン適用部35aは、さらに、小節列と定型パターン『P2』や『P3』とを照合し、定型パターン『P3』である「(連中)+(連中)+((連用)+(終止))→〔準備1〕+〔準備2〕+〔処理〕」とを照合し、小節列と定型パターン『P3』とが一致するので、図17に示すように、定型パターン『P3』である「〔準備1〕+〔準備2〕+〔処理〕」をも、定型文章の分割結果として選択する。なお、『文1』を入力とすると、『P1』および『P3』とマッチするが、これをそれぞれ、『文1−P1』、『文1−P3』として表している。
また、複数定型パターン適用部35aは、『文2』についても同様に、小節列と定型パターン『P1』、『P2』および『P3』各々とを照合し、一致すると照合された複数の定型パターン全てを、定型文章の分割結果(候補)として選択する。なお、『文2』を入力とすると、『P1』および『P3』とマッチするが、これをそれぞれ、『文2−P1』、『文2−P3』として表している。
候補群ソート部37は、加点表記憶部23によって記憶されている加点表を参照し、例えば、図18の『文1−P1』に示すように、並列要素『生姜をすりおろし、』、『肉を食べやすい大きさに切り、』および『ネギを刻んで』が、『すべての並列要素が「を格」を含む場合』であることから、加点として「+3」を加え、『右端動詞がすべて同一態』であることから、加点として「+3」を加えている。この結果と要素数との乗算が、図18の『文1−P1』に示すように、『18』となる。
また、候補群ソート部37は、例えば、図18の『文2−P1』に示すように、並列要素『生姜をすりおろし、』、『肉を食やすい大きさに切り、』および『熱した鍋を投入して』が、『右端動詞がすべて同一態』であることから、加点として「+3」を加えている。この結果と要素数との乗算が、図18の『文2−P1』に示すように、『9』となる。
同様に、候補群ソート部37は、図18に示すように、『文1−P3』や『文2−P3』についても、加点を評価する。そして、候補群ソート部37は、図19に示すように、複数の定型パターン(候補)の順序をソートする。例えば、『文1』についてみると、『文1−P1』の加点は『18』であり、『文1−P3』の加点は『12』であることから、第一候補は、定型パターン『P1』であり、第二候補が、定型パターン『P3』であるという順序に、複数の定型パターン(候補)の順序をソートする。
同様に、候補群ソート部37は、図19に示すように、例えば、『文2』についてみると、『文2−P3』の加点は『12』であり、『文2−P1』の加点は『9』であることから、第一候補は、定型パターン『P3』であり、第二候補が、定型パターン『P1』であるという順序に、複数の定型パターン(候補)の順序をソートする。
なお、結果表示部36は、実施例1と同様、例えば、ソートされた順序の複数の定型パターンと小節列とを対応付けて、図19に示すような形式で、ディスプレイやプリンタあるいは記憶部などに出力するなどしてもよい。
[実施例2に係る文章分割装置による処理の手順]
次に、図20を用いて、実施例2に係る文章分割装置による処理の手順を説明する。図20は、実施例2に係る文章分割装置による処理の手順を示すフローチャートである。
まず、実施例2に係る文章分割装置10は、実施例1と同様、入力文受付部31において、入力文を受け付けたか否かを判定し(ステップS201)、次に、形態素解析部32において、入力文から形態素列を得て(ステップS202)、そして、文節合成部33において、形態素列から文節列を得る(ステップS203)。
続いて、文章分割装置10は、実施例1と同様、小節合成部34において、文節列から小節列を得る(ステップS204)。そして、文章分割装置10は、実施例1と異なり、複数定型パターン適用部35aにおいて、小節列に対して適用できる定型パターンをすべて適用し、定型パターンの候補群を得る(ステップS205)。
その後、文章分割装置10は、実施例1と異なり、候補群ソート部37において、定型パターン候補群に評価値を付与し、ソートする(ステップS206)。その後、文章分割装置10は、結果表示部36において、ソート済み定型パターン群を表示する(ステップS207)。
[実施例2の効果]
上記してきたように、実施例2によれば、照合した結果、複数の構造パターンが小節列と一致すると照合された場合に、小節列と複数の構造パターン各々との一致の度合いを評価し、評価した結果に従って、小節列と一致すると照合された複数の構造パターンの順序をソートするので、複数の分割候補が結果として得られた場合に、最適な候補を選択することが可能になる。
具体的に説明すると、実施例1に係る文章分割装置は、構造パターンと小節列との照合が一度一致すると、そこで処理を終了することによって、処理を扱いやすくするものであった。しかしながら、実施例2に係る文章分割装置は、複数の構造的な可能性を出し、その中から、最適と思われる候補を選び出すことで、解析や照合の精度をさらに向上させることが可能になる。
ところで、これまで、実施例1や2として、文章分割装置が、小節合成部34によって生成された小節列を、そのまま定型パターン適用部35による処理に利用する手法について説明してきた。ここで、定型パターンは、小節そのものを単位として記述するものであったため、特に文章が長文になってくると、記述すべき定型パターンの数が増えてしまい、これを制御する枠組みが必要となる。このため、実施例3に係る文章分割装置は、小節を単位とした構文解析を行い、生成可能な複数の木構造を生成し、この木構造の中で、定型の表現に直接関係のない部分を「痕跡」小節として縮退することによって、構造パターンを飛躍的に単純化することを可能にする。以下では、実施例3として、上記の手法について、説明する。なお、実施例3に係る文章分割装置について、実施例1や2に係る文章分割装置と同様の部分については説明を割愛することとし、実施例3に係る文章分割装置に特徴的な機能を中心に説明することとする。また、実施例3に係る文章分割装置に入力される定型文章は、実施例1に係る文章分割装置に入力された定型文章として図5に例示したものと同じものを想定している。
[実施例3に係る文章分割装置の構成]
まず、図21〜29を用いて、実施例3に係る文章分割装置の構成を説明する。図21は、実施例3に係る文章分割装置の構成を示すブロック図であり、図22は、実施例3における定型パターン記憶部(骨格小節に対するパターンの適用例)について説明するための図であり、図23は、実施例3における小節係受け解析部(解析単位としての小節の利用)について説明するための図であり、図24は、実施例3における小節係受け解析部(小節間係受け解析結果)について説明するための図であり、図25は、実施例3における骨格小節作成部(入力文の骨格小節)について説明するための図であり、図26は、実施例3における骨格小節作成部(係受け結果から骨格小節の作成)について説明するための図であり、図27は、実施例3における複数定型パターン適用部(骨格小節に対する構造パターン適用結果)について説明するための図であり、図28は、実施例3における候補群ソート部(加点の適用結果)について説明するための図であり、図29は、実施例3における候補群ソート部について説明するための図である。
図21に示すように、実施例3に係る文章分割装置10は、制御部30に、小節係受け解析部38と骨格小節作成部39とが追加されている点で、実施例2と異なる。
なお、実施例3における定型パターン記憶部22は、実施例1や2における定型パターンが、小節列に直接適用するものであったのに対し、図22に示すように、骨格小節に対して適用するものである点で、異なっている。例えば、実施例3における定型パターンは、『P3』が実施例1や実施例2の『P3』と異なっている。実施例1や実施例2において、『(連用)+(終止)』となっていた部分が、単に『(終止)』として記述されている。後に説明するが、骨格小節作成部39では、『(連用)』の小節が痕跡置換されるが、これに対応した定型パターンとなっているのである。この記述によって、例えば、この『(連用)』の位置に来る可能性のある小節群であって、定型パターンの適用に直接関係のない小節群については、記述を省くことができる。これによって、定型パターンとの照合に影響を与えることなく、定型パターンの記述を単純化することができるのである。
小節係受け解析部38は、小節間の係受けを解析する。具体的には、小節係受け解析部38は、小節合成部34によって生成された小節列について、小節列を構成する小節間の係受けを解析し、解析した結果は、骨格小節作成部39による処理に利用される。
例えば、小節係受け解析部38は、図23に示すように、小節合成部34によって生成された小節列の小節各々について、『小節属性』および『小節係り先』を解析している。ここで、『小節属性』は、その小節自身が、用言であるか、体言であるかを表すものである。『係り先小節/係りタイプ』は、その小節が、係り先となることができる小節と、係るときの係りタイプを表している。係りタイプとしては『並列』と『修飾』の2種類がある。1つめの小節である「生姜をすりおろし、」は、『連中』および『終止』に係ることができ、『連中』に係るときは『並列』タイプとして、『終止』に係るときは『修飾』タイプとして係ることを表す。2つめの小節である「肉を食べやすい大きさに切り、」は、『連用』および『終止』に係ることができ、『連用』に係るときは『並列』タイプとして、『終止』に係るときは『修飾』タイプとして係ることを表す。3つめの小節である「ネギを刻んで」は、『終止』および『連中』に係ることができ、『終止』に係るときも『終止』に係るときも『修飾』タイプとして係ることを表す。4つめの小節である「よく混ぜ合わせる。」は、他の小節には係らず、文の終わりとなる。
例えば、図24は、実施例3における小節係受け解析部38による小節間係受けの解析結果である。図23の小節群を対象とし、従来技術である構文解析を行って、小節を単位とした係受けを行った結果である。図23に対応して、係りタイプには、『並列』と『修飾』との2種類がある。ここでは、小節間係受けによって生成することのできる二つの候補を、それぞれ『木1』および『木2』として表している。『木1』では、2つの『連中』小節が並列関係にあり、残りは修飾関係でつながっている。『木2』では、3つの小節(『連中』2つと『連用』)が並列関係にあり、残りが修飾関係でつながっている。『木1』と『木2』では、2つめの小節の『係り先小節』が異なっており、それにつれて『係りタイプ』も異なっている。図23の2つめの小節(「肉を食べやすい大きさに切り、)の『係り先小節/係りタイプ』は『(連用)/並列』もしくは『(終止)/修飾』であるが、この小節が、4つめの小節である『終止』小節に係るときは『修飾』係りタイプで係って『木1』が生成され、3つめの小節である『連用』小節に係るときは『並列』係りタイプで係って『木1』が生成される。このようにして、2種類の異なった木が生成される。
骨格小節作成部39は、小節列を骨格小節のみの骨格小節列とする。具体的には、骨格小節作成部39は、小節係受け解析部38によって解析された結果に従って、定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、小節列を骨格小節のみの骨格小節列とし、骨格小節列は、複数定型パターン適用部35aによる処理に利用される。
例えば、骨格小節作成部39は、図25に示すような骨格小節を作成する。『木1』に対する骨格小節作成によって『骨格小節1』が生成され、『木2』に対する骨格小節作成によって『骨格小節2』が生成される。ここでは、木構造の形によって、特定の小節が消失し、『痕跡』として扱われる。『痕跡』への置き換えの処理手順は、図26に示される。
ここで、図26は、小節を単位とした木構造に対して、特定の小節を『痕跡』に置き換えるための手順例である。ここで、『CP』(=current point)は、処理のためのポインタ位置を表し、処理の開始時点では、最も右の小節にセットされる(ステップS301)。基本的な動作としては、ポインタのある小節に対する係り小節が1つの場合は(ステップS303否定)、痕跡置換を行わずにポインタを1つ左隣に移動するが(ステップS304)、ポインタのある小節に対する係り小節が複数ある場合は(ステップS303肯定)、ポインタの左隣の小節および左隣に係るすべての小節を痕跡置換する(ステップS306)。このようにして、骨格小節作成部39は、複数の係り小節全てのチェックを行って、ポインタを残っている左隣の小節に1つ移動して(ステップS309)、処理を進める。なお、最左端の小節に関する例外処理では(ステップS302肯定)、係り関係の種別によって処理が分かれる場合がある(ステップS311〜314)。
複数適用パターン適用部35aは、骨格小節作成部39によって生成された骨格小節列(痕跡小節を除いた小節列)を、適用パターンに記述された小節の並びと比較し、過不足なく小節が一致した定型パターンを選択する。例えば、図27は、骨格小節に対する定型パターンの適用結果である。過不足のないマッチは、骨格小節1とP3との組み合わせ、および、骨格小節2とP1との組み合わせ、において得られたため、この二つを示している。各候補では、マッチの結果、定型パターンに付与されている構造ラベルが付与されている。
なお、候補群ソート部37は、実施例2と同様、加点表記憶部23によって記憶されている加点表を参照し、例えば、図28の『骨格小節1−P3』や『骨格小節2−P1』に示すように、加点を計算する。また、候補群ソート部37は、実施例2と同様、図29に示すように、複数の定型パターン(候補)の順序をソートする。
なお、結果表示部36は、実施例1と同様、例えば、ソートされた順序の複数の定型パターンと小節列とを対応付けて、図29に示すような形式で、ディスプレイやプリンタあるいは記憶部などに出力するなどしてもよい。
[実施例3に係る文章分割装置による処理の手順]
次に、図30を用いて、実施例3に係る文章分割装置による処理の手順を説明する。図30は、実施例3に係る文章分割装置による処理の手順を示すフローチャートである。
まず、実施例3に係る文章分割装置10は、実施例2と同様、入力文受付部31において、入力文を受け付けたか否かを判定し(ステップS401)、次に、形態素解析部32において、入力文から形態素列を得て(ステップS402)、そして、文節合成部33において、形態素列から文節列を得る(ステップS403)。
続いて、文章分割装置10は、実施例2と同様、小節合成部34において、文節列から小節列を得る(ステップS404)。次に、文章分割装置10は、実施例2と異なり、小節係受け解析部38において、小節列に対して係受け解析を行って、係受け候補群を得る(ステップS405)。続いて、文章分割装置10は、実施例2と異なり、骨格小節作成部39において、各係受け候補群に対して骨格小節を作成する(ステップS406)。
そして、文章分割装置10は、実施例2と同様、複数定型パターン適用部35aにおいて、小節列に対して適用できる定型パターンをすべて適用し、定型パターンの候補群を得るが、実施例2と異なり、骨格小節に対して定型パターンを適用する(ステップS407)。
その後、文章分割装置10は、実施例2と同様、候補群ソート部37において、定型パターン候補群に評価値を付与し、ソートする(ステップS408)。その後、文章分割装置10は、結果表示部36において、ソート済み定型パターン群を表示する(ステップS409)。
[実施例3の効果]
上記してきたように、実施例3によれば、生成した小節列について、小節列を構成する小節間の係受けを解析し、解析した結果に従って、定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、小節列を骨格小節のみの骨格小節列とし、作成した骨格小節列と構造パターンとを照合するので、長い文章であっても単純な構造パターンで記述することが可能になる。
具体的に説明すると、実施例1や2に係る文章分割装置は、小節そのものを単位として構造パターンを記述するものであったため、特に文章が長文になってくると、記述すべき構造パターンの数が増えてしまい、これを制御する枠組みが必要となった。このため、実施例3に係る文章分割装置は、小節を単位とした構文解析を行い、生成可能な複数の木構造を生成し、この木構造の中で、定型の表現に直接関係のない部分を「痕跡」小節として縮退することによって、構造パターンを飛躍的に単純化することが可能になる。
言い換えると、実施例3に係る文章分割装置は、定型文章の構造パターンを利用者が自由に記述することができる構造パターン処理と、構文的に可能な木構造を生成できる構文解析処理とを統合することにより、広域的な処理および統語的な処理の両方を実現させることが可能になる。ここで、定型文章の特徴に合わせた構文解析の最小単位として、従来の文節をまとめ上げた小節を解析対象としており、これにより、利用者が記述する構造パターンがシンプルになると同時に、構文解析における構文的に可能な組み合わせの数が削減されることから、構文解析精度の向上につながる。また、構文情報を用いることによって、定型に直接関係のない小節をまとめ上げることができることから、さらに構造パターンはシンプルになり、記述すべき構造パターンの数が少なくてすむようになる。このようにして、文章解析技術の詳細に関する知識がなくても扱えるレベルのシンプルな構造パターン記述の枠組みを用意することによって、利用者は文章の構造パターンを記述することができるようになる。
さて、これまで本発明の実施例について説明したが、本発明は上記した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[プログラム]
上記の実施例で説明した各種の処理は、予め用意されたプログラムやパーソナル・コンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図31を用いて、上記の実施例1と同様の機能を有する文章分割プログラムを実行するコンピュータの一例を説明する。図31は、文章分割プログラムを実行するコンピュータを示す図である。
図31に示すように、文章分割プログラム(コンピュータ)40は、キャッシュ41、RAM42、HDD43、ROM44およびCPU45をバス46で接続して構成される。ここで、ROM44には、上記の実施例1と同様の機能を発揮する文章分割プログラム、つまり、図31に示すように、入力文受付プログラム44a、形態素解析プログラム44b、文節合成プログラム44c、小節合成プログラム44d、定型パターン適用プログラム44eおよび結果表示プログラム44fが予め記憶されている。
そして、CPU45は、これらのプログラム44a〜44fを読み出して実行することで、図31に示すように、各プログラム44a〜44fは、入力文受付プロセス45a、形態素解析プロセス45b、文節合成プロセス45c、小節合成プロセス45d、定型パターン適用プロセス45eおよび結果表示プロセス45fとなる。なお、各プロセス45a〜45fは、図2に示した、入力文受付部31、形態素解析部32、文節合成部33、小節合成部34、定型パターン適用部35および結果表示部36に各々対応する。
また、HDD43には、図31に示すように、小節定義テーブル43aおよび定型パターンテーブル43bが設けられる。なお、各テーブル43aおよび43bは、図2に示した、小節定義記憶部21および定型パターン記憶部22に各々対応する。
ところで、上記した各プログラム44a〜44fについては、必ずしもROM44に記憶させておく必要はなく、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」に記憶させておき、コンピュータ40がこれらからプログラムを読み出して実行するようにしてもよい。
[システム構成等]
実施例1〜3においては、小節定義を予め記憶している記憶部や、定型パターンを予め記憶している記憶部が、文章分割処理を行う制御部と同じ装置に構成されている手法を説明したが、本発明はこれに限られるものではない。小節定義を予め記憶している記憶部や、定型パターンを予め記憶している記憶部が、文章分割処理を行う制御部と異なる装置に構成されている手法や、これらの記憶部に記憶されている小節定義や定型パターンの情報が、可搬性のある記憶媒体に記憶されている手法などにも、本発明を同様に適用することができる。
また、実施例3においては、文章分割装置が骨格小節列に対して全ての定型パターンを各々適用し、評価値を付与して分割結果をソートする手法について説明したが、文章分割装置が骨格小節列に対して定型パターンを適用するものの、一致した定型パターンがあればそのまま処理を終了する手法(評価値の付与やソートを行わない手法)などにも、本発明を同様に適用することができる。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順(図10、図20および図30など)、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(図2、図11および図21)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる(例えば、小節定義記憶部と定型パターン記憶部とを統合して構成するなど)。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(付記1)文章の構造に特有の定型性を有する定型文章を分割する文章分割方法をコンピュータに実行させる文章分割プログラムであって、
前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手順と、
前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記小節列生成手順によって生成された小節列と当該記憶部に記憶されている構造パターンとを照合する照合手順と、
前記照合手順によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択手順と、
をコンピュータに実行させることを特徴とする文章分割プログラム。
(付記2)前記照合手順によって照合された結果、複数の構造パターンが前記小節列と一致すると照合された場合に、前記小節列と当該複数の構造パターン各々との一致の度合いを評価する評価手順と、
前記評価手順によって評価された結果に従って、前記照合手順によって前記小節列と一致すると照合された複数の構造パターンの順序をソートするソート手順とをさらにコンピュータに実行させることを特徴とする付記1に記載の文章分割プログラム。
(付記3)前記小節列生成手順によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析手順と、
前記係受け解析手順によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成手順とをさらにコンピュータに実行させ、
前記照合手順は、前記骨格小節列作成手順によって作成された骨格小節列と前記構造パターンとを照合することを特徴とする付記1または2に記載の文章分割プログラム。
(付記4)文章の構造に特有の定型性を有する定型文章を分割する文章分割装置であって、
前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義を予め記憶している小節定義記憶手段と、
前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンを予め記憶している構造パターン記憶手段と、
分割対象となる定型文章を前記小節定義記憶手段に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手段と、
前記小節列生成手段によって生成された小節列と前記構造パターン記憶手段に記憶されている構造パターンとを照合する照合手段と、
前記照合手段によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択手段と、
を備えたことを特徴とする文章分割装置。
(付記5)前記照合手段によって照合された結果、複数の構造パターンが前記小節列と一致すると照合された場合に、前記小節列と当該複数の構造パターン各々との一致の度合いを評価する評価手段と、
前記評価手段によって評価された結果に従って、前記照合手段によって前記小節列と一致すると照合された複数の構造パターンの順序をソートするソート手段とをさらに備えたことを特徴とする付記4に記載の文章分割装置。
(付記6)前記小節列生成手段によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析手段と、
前記係受け解析手段によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成手段とをさらに備え、
前記照合手段は、前記骨格小節列作成手段によって作成された骨格小節列と前記構造パターンとを照合することを特徴とする付記4または5に記載の文章分割装置。
(付記7)文章の構造に特有の定型性を有する定型文章を分割する文章分割方法であって、
前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成工程と、
前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記小節列生成工程によって生成された小節列と当該記憶部に記憶されている構造パターンとを照合する照合工程と、
前記照合工程によって前記小節列と一致すると照合された構造パターンを当該定型文章の分割結果として選択する選択工程と、
を含んだことを特徴とする文章分割方法。
(付記8)前記照合工程によって照合された結果、複数の構造パターンが前記小節列と一致すると照合された場合に、前記小節列と当該複数の構造パターン各々との一致の度合いを評価する評価工程と、
前記評価工程によって評価された結果に従って、前記照合工程によって前記小節列と一致すると照合された複数の構造パターンの順序をソートするソート工程とをさらに含んだことを特徴とする付記7に記載の文章分割方法。
(付記9)前記小節列生成工程によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析工程と、
前記係受け解析工程によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成工程とをさらに含み、
前記照合工程は、前記骨格小節列作成工程によって作成された骨格小節列と前記構造パターンとを照合することを特徴とする付記7または8に記載の文章分割方法。
以上のように、本発明に係る文章分割プログラム、文章分割装置および文章分割方法は、文章の構造に特有の定型性を有する定型文章を分割することに有用であり、特に、文章全体として妥当性の高い分割結果を得ることに適する。
実施例1に係る文章分割装置の概要および特徴を説明するための図である。 実施例1に係る文章分割装置の構成を示すブロック図である。 実施例1における小節定義記憶部(小節定義の例)について説明するための図である。 実施例1における定型パターン記憶部(構造パターンの例)について説明するための図である。 実施例1における入力文受付部(入力文)について説明するための図である。 実施例1における文節合成部(入力文の文節列)について説明するための図である。 実施例1における小節合成部(小節定義の適用)について説明するための図である。 実施例1における小節合成部(小節定義適用結果)について説明するための図である。 実施例1における定型パターン適用部(構造パターン適用結果)について説明するための図である。 実施例1に係る文章分割装置による処理の手順を示すフローチャートである。 実施例2に係る文章分割装置の構成を示すブロック図である。 実施例2における加点表記憶部(加点の例)について説明するための図である。 実施例2における入力文受付部(入力文)について説明するための図である。 実施例2における文節合成部(入力文の文節列)について説明するための図である。 実施例2における小節合成部(小節定義の適用)について説明するための図である。 実施例2における小節合成部(小節定義適用結果)について説明するための図である。 実施例2における複数定型パターン適用部(構造パターン適用結果)について説明するための図である。 実施例2における候補群ソート部(加点の適用結果)について説明するための図である。 実施例2における候補群ソート部(ソート後構造パターン出力結果)について説明するための図である。 実施例2に係る文章分割装置による処理の手順を示すフローチャートである。 実施例3に係る文章分割装置の構成を示すブロック図である。 実施例3における定型パターン記憶部(骨格小節に対するパターンの適用例)について説明するための図である。 実施例3における小節係受け解析部(解析単位としての小節の利用)について説明するための図である。 実施例3における小節係受け解析部(小節間係受け解析結果)について説明するための図である。 実施例3における骨格小節作成部(入力文の骨格小節)について説明するための図である。 実施例3における骨格小節作成部(係受け結果から骨格小節の作成)について説明するための図である。 実施例3における複数定型パターン適用部(骨格小節に対する構造パターン適用結果)について説明するための図である。 実施例3における候補群ソート部(加点の適用結果)について説明するための図である。 実施例3における候補群ソート部について説明するための図である。 実施例3に係る文章分割装置による処理の手順を示すフローチャートである。 文章分割プログラムを実行するコンピュータを示す図である。
符号の説明
10 文章分割装置
11 入力部
12 出力部
13 入出力制御I/F部
20 記憶部
21 小節定義記憶部
22 定型パターン記憶部
23 加点表記憶部
30 制御部
31 入力文受付部
32 形態素解析部
33 文節合成部
34 小節合成部
35 定型パターン適用部
35a 複数定型パターン適用部
36 結果表示部
37 候補群ソート部
38 小節係受け解析部
39 骨格小節作成部
40 コンピュータ
41 キャッシュ
42 RAM
43 HDD
44 ROM
45 CPU
46 バス

Claims (4)

  1. 文章の構造に特有の定型性を有する定型文章を分割する文章分割方法をコンピュータに実行させる文章分割プログラムであって、
    前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手順と、
    前記小節列生成手順によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析手順と、
    前記係受け解析手順によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成手順と、
    前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記骨格小節列作成手順によって作成された骨格小節列と当該記憶部に記憶されている構造パターンとを照合する照合手順と、
    前記照合手順によって前記小節列と一致すると照合された構造パターンを前記定型文章の分割結果として選択する選択手順と、
    をコンピュータに実行させることを特徴とする文章分割プログラム。
  2. 前記照合手順によって照合された結果、複数の構造パターンが前記骨格小節列と一致すると照合された場合に、前記骨格小節列と当該複数の構造パターン各々との一致の度合いを評価する評価手順と、
    前記評価手順によって評価された結果に従って、前記照合手順によって前記骨格小節列と一致すると照合された複数の構造パターンの順序をソートするソート手順とをさらにコンピュータに実行させることを特徴とする請求項1に記載の文章分割プログラム。
  3. 文章の構造に特有の定型性を有する定型文章を分割する文章分割装置であって、
    前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義を予め記憶している小節定義記憶手段と、
    前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンを予め記憶している構造パターン記憶手段と、
    分割対象となる定型文章を前記小節定義記憶手段に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成手段と、
    前記小節列生成手段によって生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析手段と、
    前記係受け解析手段によって解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成手段と、
    前記骨格小節列作成手段によって作成された骨格小節列と前記構造パターン記憶手段に記憶されている構造パターンとを照合する照合手段と、
    前記照合手段によって前記小節列と一致すると照合された構造パターンを前記定型文章の分割結果として選択する選択手段と、
    を備えたことを特徴とする文章分割装置。
  4. 文章の構造に特有の定型性を有する定型文章を分割する文章分割方法であって、
    コンピュータが、前記構造との関係で前記定型文章の分割に適した箇所が利用者によって文章の属性情報を用いて表現された小節定義が記憶部に予め記憶されている状況で、前記記憶部を参照して、分割対象となる定型文章を当該記憶部に記憶されている小節定義に基づいて分割し、分割後の個々の文章である小節を並べた小節列を生成する小節列生成工程と、
    前記コンピュータが、前記小節列生成工程において生成された小節列について、当該小節列を構成する小節間の係受けを解析する係受け解析工程と、
    前記コンピュータが、前記係受け解析工程において解析された結果に従って、前記定型文章の構造において骨格となる骨格小節を修飾する小節を消失させることで、前記小節列を当該骨格小節のみの骨格小節列とする骨格小節列作成工程と、
    前記コンピュータが、前記定型文章に適した構造が利用者によって前記小節定義ごとの組み合わせとして表現された構造パターンが記憶部に予め記憶されている状況で、前記記憶部を参照して、前記骨格小節列作成工程において作成された骨格小節列と当該記憶部に記憶されている構造パターンとを照合する照合工程と、
    前記コンピュータが、前記照合工程において前記小節列と一致すると照合された構造パターンを前記定型文章の分割結果として選択する選択工程と、
    を含んだことを特徴とする文章分割方法。
JP2007173440A 2007-06-29 2007-06-29 文章分割プログラム、文章分割装置および文章分割方法 Active JP5256654B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007173440A JP5256654B2 (ja) 2007-06-29 2007-06-29 文章分割プログラム、文章分割装置および文章分割方法
US12/056,432 US9009023B2 (en) 2007-06-29 2008-03-27 Computer-readable medium having sentence dividing program stored thereon, sentence dividing apparatus, and sentence dividing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007173440A JP5256654B2 (ja) 2007-06-29 2007-06-29 文章分割プログラム、文章分割装置および文章分割方法

Publications (2)

Publication Number Publication Date
JP2009015398A JP2009015398A (ja) 2009-01-22
JP5256654B2 true JP5256654B2 (ja) 2013-08-07

Family

ID=40161626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007173440A Active JP5256654B2 (ja) 2007-06-29 2007-06-29 文章分割プログラム、文章分割装置および文章分割方法

Country Status (2)

Country Link
US (1) US9009023B2 (ja)
JP (1) JP5256654B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298697B2 (en) * 2010-01-26 2016-03-29 Apollo Education Group, Inc. Techniques for grammar rule composition and testing
US20130238987A1 (en) * 2012-03-11 2013-09-12 Mark Ian Lutwyche Patent Prosecution Tool
US9727641B2 (en) * 2013-04-25 2017-08-08 Entit Software Llc Generating a summary based on readability
DE102013020905A1 (de) * 2013-12-16 2015-06-18 Ralf Spitzl Verfahren und Vorrichtungen zur Herstellung von Synthesegas

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5170349A (en) * 1989-03-14 1992-12-08 Canon Kabushiki Kaisha Text processing apparatus using modification relation analysis
JP2697926B2 (ja) * 1989-10-25 1998-01-19 富士通株式会社 自然言語処理装置
JPH03259376A (ja) * 1990-03-09 1991-11-19 Nippon Telegr & Teleph Corp <Ntt> 日本語長文分割支援装置
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JPH06295308A (ja) * 1993-04-07 1994-10-21 Nec Corp 自然言語解析方法および装置
JP3300131B2 (ja) 1993-10-04 2002-07-08 株式会社リコー 自然言語解析装置
JP3066274B2 (ja) * 1995-01-12 2000-07-17 シャープ株式会社 機械翻訳装置
JPH1049535A (ja) 1996-07-31 1998-02-20 Nec Corp 自然言語解析方法及びその装置
WO1998008169A1 (en) * 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
US6295529B1 (en) * 1998-12-24 2001-09-25 Microsoft Corporation Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts
US7233891B2 (en) * 1999-08-24 2007-06-19 Virtural Research Associates, Inc. Natural language sentence parser
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
JP2004501429A (ja) * 2000-05-11 2004-01-15 ユニバーシティ・オブ・サザン・カリフォルニア 機械翻訳技法
US6810375B1 (en) * 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
US6714939B2 (en) * 2001-01-08 2004-03-30 Softface, Inc. Creation of structured data from plain text
US7426505B2 (en) * 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
US7475006B2 (en) * 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
JP3765799B2 (ja) * 2003-05-28 2006-04-12 沖電気工業株式会社 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
EP1687739A2 (en) * 2003-11-21 2006-08-09 Philips Intellectual Property & Standards GmbH Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7823061B2 (en) * 2004-05-20 2010-10-26 Wizpatent Pte Ltd System and method for text segmentation and display
US7562008B2 (en) * 2004-06-23 2009-07-14 Ning-Ping Chan Machine translation method and system that decomposes complex sentences into two or more sentences
GB2428508B (en) * 2005-07-15 2009-10-21 Toshiba Res Europ Ltd Parsing method

Also Published As

Publication number Publication date
US9009023B2 (en) 2015-04-14
US20090006080A1 (en) 2009-01-01
JP2009015398A (ja) 2009-01-22

Similar Documents

Publication Publication Date Title
US5579224A (en) Dictionary creation supporting system
JPH09190449A (ja) 索引自動生成方法とその利用方法
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JPH07325827A (ja) ハイパーテキスト自動生成装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP5256654B2 (ja) 文章分割プログラム、文章分割装置および文章分割方法
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP2014232505A (ja) 項目間関連生成支援装置
JP2006221532A (ja) 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2004318809A (ja) 情報抽出規則生成装置および方法
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP5262190B2 (ja) 入力補完装置、及び入力補完プログラム
JP4023371B2 (ja) 固有名認識装置および方法
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP2009015394A (ja) 辞書構築支援装置
JPH08329059A (ja) 汎用参照装置
JP2009145966A (ja) テキスト整形規則獲得装置、その方法、構造判定装置、それらのプログラム
JP3692711B2 (ja) 機械翻訳装置
JP5906869B2 (ja) アクセント付与装置、アクセント付与方法、及びプログラム
JPH1145243A (ja) 索引作成支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003296323A (ja) 形態素解析装置
JP2004102942A (ja) 翻訳の信頼度を算出するようにコンピュータシステムを動作させる方法およびプログラム、複数個の翻訳の中から一つの翻訳を選択するようにコンピュータを動作させる方法およびプログラム、ならびに意味対応表を記憶した記憶媒体
JPH1040267A (ja) 文書要約ビューア

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5256654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150