JP3701050B2 - 文書形態素解析装置 - Google Patents
文書形態素解析装置 Download PDFInfo
- Publication number
- JP3701050B2 JP3701050B2 JP16490095A JP16490095A JP3701050B2 JP 3701050 B2 JP3701050 B2 JP 3701050B2 JP 16490095 A JP16490095 A JP 16490095A JP 16490095 A JP16490095 A JP 16490095A JP 3701050 B2 JP3701050 B2 JP 3701050B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- description language
- sentence
- input
- document description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【産業上の利用分野】
本発明は、入力した文書を形態素単位に区切り、それぞれの単位の持つ性質を明らかにして出力する文書形態素解析装置に関する。
【0002】
【従来の技術】
従来、コンピュータによるキーワード検索、置換、ソート等の文字列処理や、校正処理、機械翻訳処理等の自然言語処理を行う場合、処理対象の文書に対して予め形態素(意味を持つ最小の言語単位)に分割する等の形態素解析を行い、そうした形態素解析が施された文書を基に、自然言語処理を行っている。文書に対して自然言語処理を行うためには、予めその文書が形態素単位に分割されている必要がある。
【0003】
一方、コンピュータ処理対象の文書の論理構造や意味構造を記述するために、その文書に簡単なマーク(文書記述言語)を付加することが行われている。例えば、SGML(Standard Generalized Markup Language) では、文書中に出てくるタイトルや著者名等の構造上あるいは意味上重要な部分に、予め決めてある文書記述言語(タグや制御コード)で印を付けておく。こうすると、後にその部分だけ抜き出して抄録にまとめたり、人名索引を作成する、といった利用ができ、文書をデータベースとして利用できる。
【0004】
【発明が解決しようとする課題】
しかし、従来の自然言語処理に先立つ形態素解析では、文書以外の文書記述言語が含まれる文書をそのまま処理することはできないため、それらの文書記述言語を取り外す処理が必要であった。
【0005】
一方で、文書に文書記述言語を付加することにより、自然言語処理において様々な便利な利用が考えられるので、形態素解析結果に文書記述言語が付加されていることが求められている。
【0006】
また、自然言語処理では、文書を構成する一文単位で処理を行うため、従来、一文を認識するための前処理が必要であった。なお、従来の形態素解析には、一文を認識する機能はなかった。
【0007】
さらに、特定のシステムに専用の文書記述言語を利用して記述されている文書を、異なる方式の文書記述言語を使用するシステムに流通させることはできない。そうした不便さを考慮して、方式が異なる文書記述言語を使用するシステム間において、文書記述言語を含む文書を流通させることができるように、文書記述言語のコード変換が求められている。
【0008】
本発明はこのような点に鑑みてなされたものであり、文書記述言語が付加され、かつ一文の区切りが認識された形態素解析結果を自然言語処理装置に出力することを可能とした文書形態素解析装置を提供することを第1の目的とする。
【0009】
また、方式が異なる文書記述言語を使用するシステムに、文書記述言語のコード変換を行って文書を出力することを可能とした文書形態素解析装置を提供することを第2の目的とする。
【0010】
【課題を解決するための手段】
本発明では上記目的を達成するために、図1に示すように、形態素解析に使用する単語辞書1と、一文の区切りを認識するための属性が付加された文末記号2aと文書記述言語2bとから構成された制御情報辞書2と、文書記述言語による記述を含んだ文書が入力される入力手段3と、入力手段3に入力された文書を基に、単語辞書1および制御情報辞書2を参照して、一文の区切りを認識するとともに、文書記述言語を除いた文書を抽出し、その抽出された文書に対して形態素解析を行う解析手段4と、解析手段4の解析結果を、入力手段3に入力された文書に含まれた文書記述言語による記述とともに出力する出力手段5とを有することを特徴とする文書形態素解析装置が提供される。
【0011】
また、文書形態素解析装置は更に、制御情報辞書2に収容されている文書記述言語2bと、この文書記述言語2bと異なる他の方式の文書記述言語との対応関係を示す文書記述言語対応表6と、出力手段5から出力される文書記述言語による記述を、文書記述言語対応表6を参照して、他の方式の文書記述言語による記述に変換する変換手段7とを有する。
【0012】
【作用】
以上のような構成において、単語辞書1は、形態素解析に使用する従来と同じ辞書である。制御情報辞書2は、本発明特有の辞書であり、文末記号2aと文書記述言語2bとが収納されている。この文末記号2aは、通常の文章において一文の終了を示す文書記号〔例えば英語の場合、「.(ピリオド),?,!」等〕に一文の区切りを認識するための属性を付加したものである。文書記述言語2bは、文書の論理構造や意味構造を記述する言語であり、SGMLの場合ならば、「<,>,</,P,↓,…」等である。
【0013】
入力手段3に、文書記述言語による記述が施された文書が入力され、解析手段4へ送られる。解析手段4は、制御情報辞書2に含まれる文末記号2aから、入力文書内の一文の区切りを認識する。また、解析手段4は、制御情報辞書2に含まれる文書記述言語2bを参照して、入力文書から文書記述言語を除いた文書を抽出し、単語辞書1を参照して、その抽出された文書に対して従来の形態素解析を行う。すなわち、抽出文書を形態素毎に区切り、それぞれの形態素の持つ性質を明らかにする。
【0014】
出力手段5は、入力手段3に入力された文書に含まれていた文書記述言語による記述とともに、解析手段4の解析結果を自然言語処理装置等に出力する。
これにより、文書記述言語の記述が付加され、かつ一文の区切りが認識された形態素解析結果を自然言語処理装置に出力することが可能となる。
【0015】
また、制御情報辞書2に収容されている文書記述言語2bと、この文書記述言語2bと異なる他の方式の文書記述言語との対応関係を収納した文書記述言語対応表6を備えるとともに、出力手段5と自然言語処理装置との間に変換手段7を備える。変換手段7は、出力手段5から出力される文書記述言語による記述を、文書記述言語対応表6を参照して、他の方式の文書記述言語による記述に変換する。
【0016】
これにより、方式が異なる文書記述言語を使用するシステムに、文書記述言語のコード変換を行って文書を出力することが可能となる。
【0017】
【実施例】
以下、本発明の一実施例を図面に基づいて説明する。
まず、本実施例の文書形態素解析装置の原理構成を図1を参照して説明する。本実施例は、主に、形態素解析に使用する単語辞書1と、一文の区切りを認識するための属性が付加された文末記号2aと文書記述言語2bとから構成された制御情報辞書2と、文書記述言語2bによる記述を含んだ文書が入力される入力手段3と、入力手段3に入力された文書を基に、単語辞書1および制御情報辞書2を参照して、一文の区切りを認識するとともに、文書記述言語を除いた文書を抽出し、その抽出された文書に対して形態素解析を行う解析手段4と、解析手段4の解析結果を、入力手段3に入力された文書に含まれた文書記述言語による記述とともに出力する出力手段5とから構成される。
【0018】
また更に、制御情報辞書2に収容されている文書記述言語2bと、この文書記述言語2bと異なる他の方式の文書記述言語との対応関係を示す文書記述言語対応表6と、出力手段5から出力される文書記述言語による記述を、文書記述言語対応表6を参照して、他の方式の文書記述言語による記述に変換する変換手段7とから構成される。
【0019】
図2に、本実施例の文書形態素解析装置の具体的な構成を示す。図中の単語辞書16が図1の単語辞書1に対応し、同様に、制御情報辞書15が制御情報辞書2に、入力文書バッファ11が入力手段3に、形態素解析部12の一文認識部12a、タグ・制御コード内部変換部12b、および単語分割部12cが解析手段4に、解析結果出力部13が出力手段5に、制御コード対応表17が文書記述言語対応表6に、形態素解析部12の制御コード変換処理部12dが変換手段7に対応する。
【0020】
入力文書バッファ11は、処理対象の文書を一時的に格納して、形態素解析部12の求めに応じて出力するものである。形態素解析部12はプロセッサ構成となっており、制御情報辞書15、単語辞書16、および制御コード対応表17は、そのプロセッサに接続された外部記憶装置にそれぞれ格納されているテーブルである。形態素解析部12のプロセッサが所定のプログラムを実行することにより、一文認識部12a、タグ・制御コード内部変換部12b、単語分割部12c、および制御コード変換処理部12dの各機能が実現する。
【0021】
自然言語処理部14は、文書のプリント、翻訳、キーワード検索等のいずれかの処理を行う部分である。
図3は制御情報辞書15の内容の一例を示す図である。すなわち、本実施例では、文書記述言語としてSGMLを採用しており、各種のタグコード(欄1〜欄10)や制御コード(欄11〜欄15)を制御情報辞書15に登録している。また、各種文末コード(欄16)を登録している。文末コードは、通常の文章において一文の終了を示す文書記号〔例えば英語の場合、「.(ピリオド),?,!」等〕に一文の区切りを認識するための属性を付加したものである。欄16に示す文末コード「.空白」は、単語の直後に出現するピリオドとそれに続く空白という文書記号を意味し、その属性として「文末尾」という性質が付加される。
【0022】
図4は、制御コード対応表17の内容の一例を示す図である。すなわち、「改行」を意味するタグ(制御コード)は、文書記述言語DOSでは「0d0a」、文書記述言語SGMLでは「<BR>」、文書記述言語HOSTでは「30a1」と表記されることを示している。
【0023】
ここで、図5に示すような文書が入力文書バッファ11から形態素解析部12へ送られたとする。
まず、一文認識部12aが、図5に示す文書の中に、制御情報辞書15に収納された文末コードのいずれかが存在しないかを調べる。文末コード「.空白」があるので、そこに「文末尾」という属性を付加して一文を認識する。
【0024】
また、タグ・制御コード内部変換部12bが、図5に示す文書の中に、制御情報辞書15に収納されたタグコードや制御コードのいずれかが存在しないかを調べる。存在するときには、タグコードや制御コードの属性による各種変換を行う。図6に、タグ・制御コード内部変換部12bが、図5に示す文書に対して変換をおこなった様子を示す。
【0025】
すなわち、タグ<HTML>からタグ</HTML>(図5ではこのタグの図示が省略されている)までの文書があり、その中で、タグ<H1>からタグ</H1> までの文「Introduce WWW server」が見出し文となっている。次のタグ<P>からタグ</P> までの文「This server 〜 an old generation. 」が1つのパラグラフになっている。そのパラグラフの中で、例えばタグ<strong>からタグ</strong> までの文「car of new generation 」が、何らかの方法で強調をされるべき文になっている。また、タグ<H2>からタグ</H2> (図5ではこのタグの図示が省略されている)までの独立文があり、その独立文の中に、タグ<L1>からタグ</L1>までの更なる独立文があり、その更なる独立文の中に、タグ<FONT>からタグ</FONT>までの文字の大きさを指定された単語「cheap 」およびタグ<img>がある。タグ<img>は、文中の単語の一部とみなされ、単語属性としては単語辞書に存在しない特別な単語と見做される。なお、図5,図6において、大文字コードと子文字コードとは同じ扱いとなる。
【0026】
図2に戻って、単語分割部12cは、単語辞書16を参照して従来と同様な形態素解析を行う。
制御コード変換処理部12dは、必要に応じて、形態素解析結果に対して、制御コード対応表17を参照してコード変換を行う。
【0027】
解析結果出力部13は、単語分割部12cで得られた形態素解析結果に、一文認識部12aで得られた一文認識と、タグ・制御コード内部変換部12bで得られたSGMLによる記述とを付加して自然言語処理部14へ出力する。その際、文書記述言語の方式が異なっているならば、制御コード変換処理部12dにより予めコード変換を行っておく。
【0028】
以上の形態素解析部12の処理手順を図7を参照して説明する。
図7は形態素解析部12の処理手順を示すフローチャートである。以下、図中のステップに沿って説明する。
【0029】
〔S1〕入力文書バッファ11に、処理すべき文書データが未だ残っているか否かを判別する。処理すべき文書データが未だ残っているならばステップS4へ進み、処理すべき文書データが無いならばステップS2へ進む。
【0030】
〔S2〕入力文書バッファ11に新たな文書データを読み込む。
〔S3〕新たな文書データが入力文書バッファ11に読み込まれたか否かを判別する。新たにバッファ11に読み込まれた文書データが無いならば本処理を終了し、有ればステップS4へ進む。
【0031】
〔S4〕形態素解析部12は、入力文書バッファ11から順次送られる文書の各文字や符号を順に調べ、それらが、制御情報辞書15に含まれるタグコード、制御コード、文末コードのいずれかと一致するか否かを判別する。それらが、制御情報辞書15に含まれるコードと一致するならばステップS6へ進み、一致しなければステップS5へ進む。
【0032】
〔S5〕単語辞書16を参照して従来と同じ形態素解析を行う。
〔S6〕入力文書バッファ11から送られた文字または符号が、制御情報辞書15に含まれる文末コードと一致するか否を判別する。一致するならばステップS11へ進み、一致しなければステップS7へ進む。
【0033】
〔S7〕入力文書バッファ11から送られた文字または符号がタグ開きコード「<」であるか否かを判別する。タグ開きコードであればステップS9へ進み、タグ開きコードでなければステップS8へ進む。
【0034】
〔S8〕タグ・制御コード内部変換部12bによって各種変換を行う。
〔S9〕それまでに入力文書バッファ11から送られた、タグ< >からタグ</ >までの文を1まとめにする。
【0035】
〔S10〕ステップS8で変換された情報を、ステップS9でひとまとめにされた文に亘って組み合わせる。
〔S11〕一文認識部12aによって「文末尾」という属性の付加を行う。
【0036】
〔S12〕制御コードの変換が必要であるか否かの判別をする。必要ならばステップS13へ進み、不必要ならばステップS14へ進む。
〔S13〕制御コード変換処理部12dが制御コード対応表17を参照してコード変換を行う。
【0037】
〔S14〕解析結果出力部13が、ステップS5で得られた形態素解析結果と、ステップS10で得られた文書記述言語情報と、ステップS13で得られた変換コード情報とをまとめて自然言語処理部14へ出力する。
【0038】
【発明の効果】
以上説明したように本発明では、文末記号と文書記述言語のコードとを収納した制御情報辞書を備え、制御情報辞書に含まれる文末記号から、入力文書内の一文の区切りを認識する。また、制御情報辞書に含まれる文書記述言語のコードを参照して、入力文書から文書記述言語のコードを除いた文書を抽出し、単語辞書を参照して、その抽出された文書に対して従来の形態素解析を行う。そして、形態素解析結果を、文書記述言語のコードによる記述および一文の区切り情報とともに自然言語処理装置等に出力する。
【0039】
これにより、文書記述言語のコードの記述が付加され、かつ一文の区切りが認識された形態素解析結果を自然言語処理装置に出力することが可能となる。すなわち、文書を自然言語処理装置にかける前に、制御コードやタグコードを取り除くような従来の処理が不要となる。また、制御コードやタグコードが付加された文書を機械翻訳装置に送ることができるので、例えば特定のタグコードに挟まれた単語を翻訳せずに原型のままにしておくような処置も簡単にできる。さらには、SGMLパーサがなくてもある程度はSGML文書を直接扱うことが可能となる。
【0040】
また、制御情報辞書に収容されている文書記述言語と、この文書記述言語と異なる他の方式の文書記述言語との対応関係を収納した文書記述言語対応表を備え、出力される文書記述言語によるコードを、文書記述言語対応表を参照して、他の方式の文書記述言語によるコードに変換する。
【0041】
これにより、方式が異なる文書記述言語を使用するシステムに、文書記述言語のコード変換を行って文書を出力することが可能となる。すなわち、本発明装置を、文書の制御コードを変換するコンバータツールとして利用でき、あるユーザアプリケーション用のデータを他のユーザアプリケーション用のデータに簡単に変換できる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】実施例の構成を示すブロック図である。
【図3】制御情報辞書を示す図である。
【図4】制御コード対応表を示す図である。
【図5】入力文書を示す図である。
【図6】形態素解析結果を示す図である。
【図7】形態素解析部の処理手順を示す図である。
【符号の説明】
1 単語辞書
2 制御情報辞書
2a 文末記号
2b 文書記述言語
3 入力手段
4 解析手段
5 出力手段
6 文書記述言語対応表
7 変換手段
Claims (3)
- 入力した文書を形態素単位に区切り、それぞれの単位の持つ性質を明らかにして出力する文書形態素解析装置において、
形態素解析に使用する単語辞書と、
一文の区切りを認識するための属性が付加された文末記号と文書記述言語とから構成された制御情報辞書と、
前記制御情報辞書に収容されている文書記述言語と、この文書記述言語と異なる他の方式の文書記述言語との対応関係を示す文書記述言語対応表と、
文書記述言語による記述を含んだ文書が入力される入力手段と、
前記入力手段に入力された文書に対し、前記単語辞書および前記制御情報辞書を参照して、文書記述言語のコード及び文の区切りを認識するとともに、区切られた文に対して形態素解析を行う解析手段と、
前記解析手段の解析結果を、前記入力手段に入力された文書に含まれた文書記述言語による記述とともに出力する出力手段と、
前記出力手段から出力される文書記述言語によるコードを、前記文書記述言語対応表を参照して、前記他の方式の文書記述言語によるコードに変換する変換手段と、
を有することを特徴とする文書形態素解析装置。 - 前記制御情報辞書に収容されている文書記述言語は、SGML( Standard Generalized Markup Language )であることを特徴とする請求項1記載の文書形態素解析装置。
- 前記一文の区切りを認識するための属性が付加された文末記号は、前記入力手段に入力される文書が英語である場合は、「.」、「?」、または「!」のいずれかであることを特徴とする請求項1記載の文書形態素解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16490095A JP3701050B2 (ja) | 1995-06-30 | 1995-06-30 | 文書形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16490095A JP3701050B2 (ja) | 1995-06-30 | 1995-06-30 | 文書形態素解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0916594A JPH0916594A (ja) | 1997-01-17 |
JP3701050B2 true JP3701050B2 (ja) | 2005-09-28 |
Family
ID=15802008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16490095A Expired - Fee Related JP3701050B2 (ja) | 1995-06-30 | 1995-06-30 | 文書形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3701050B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4934699B2 (ja) * | 2009-05-28 | 2012-05-16 | 株式会社三井住友銀行 | マルチフォーマット変換システム |
-
1995
- 1995-06-30 JP JP16490095A patent/JP3701050B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0916594A (ja) | 1997-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3220560B2 (ja) | 機械翻訳装置 | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US5548508A (en) | Machine translation apparatus for translating document with tag | |
US6539348B1 (en) | Systems and methods for parsing a natural language sentence | |
JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
US7958444B2 (en) | Visualizing document annotations in the context of the source document | |
EP0886226B1 (en) | Linguistic search system | |
KR20010075026A (ko) | 지식 창조 능력을 가지는 문서 의미 분석/선택 시스템 및그 방법 | |
US20070011160A1 (en) | Literacy automation software | |
KR20020058639A (ko) | 엑스엠엘 문서 검색 시스템 및 그 방법 | |
JP2815714B2 (ja) | 翻訳装置 | |
Abolhassani et al. | Information extraction and automatic markup for XML documents | |
JP3701050B2 (ja) | 文書形態素解析装置 | |
WO1997048058A1 (en) | Automated translation of annotated text | |
WO1997048058A9 (en) | Automated translation of annotated text | |
JP2632806B2 (ja) | 言語解析装置 | |
JP3954520B2 (ja) | 翻訳支援システム | |
JP2719453B2 (ja) | 機械翻訳装置 | |
Rennie | The electronic Scottish national dictionary (eSND): Work in Progress | |
JPS63109572A (ja) | 派生語処理方式 | |
JPH0816910B2 (ja) | 言語解析装置 | |
JP3233800B2 (ja) | 機械翻訳装置 | |
Rao | Language Expert Rendering Unicode Text On ASCII Editor For Indian Languages With Language Engine | |
JP2901977B2 (ja) | 翻訳装置 | |
JPH08185405A (ja) | 機械翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050712 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080722 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090722 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100722 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100722 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110722 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110722 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120722 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |