JP2004310691A - 文章情報処理装置 - Google Patents

文章情報処理装置 Download PDF

Info

Publication number
JP2004310691A
JP2004310691A JP2003106878A JP2003106878A JP2004310691A JP 2004310691 A JP2004310691 A JP 2004310691A JP 2003106878 A JP2003106878 A JP 2003106878A JP 2003106878 A JP2003106878 A JP 2003106878A JP 2004310691 A JP2004310691 A JP 2004310691A
Authority
JP
Japan
Prior art keywords
unit
text
markup
sentence
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003106878A
Other languages
English (en)
Inventor
Tatsuya Mitsugi
達也 三次
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003106878A priority Critical patent/JP2004310691A/ja
Priority to US10/806,092 priority patent/US7269789B2/en
Priority to DE102004018446A priority patent/DE102004018446A1/de
Priority to CN2004100324492A priority patent/CN1604076B/zh
Publication of JP2004310691A publication Critical patent/JP2004310691A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文章の意味及び内容を確実に伝えることのできる文章情報処理装置を提供する。
【解決手段】プレーン文章入力部10から入力されたプレーンな文章を、辞書記憶部に記憶された辞書を用いて形態要素解析してトークンに分解する形態要素解析部12と、この形態要素解析部12で得られたトークンの品詞を解析して意味のある語を含む構造化された文章生成する構文解析部13と、この構文解析部13で生成された構造化された文章に含まれる意味のある語に対して、データ記憶部14に該語に関係付けて記憶されているデータを付加するマークアップを行う要素品格処理部15と、要素品格処理部15で生成されたマークアップ文章を出力するマークアップ文章出力部17とを備えている。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、文章情報処理装置に関し、特に文章の中からの意味のある単語や連語に、その意味又は内容を表す情報を付加する技術に関するものである。
【0002】
【従来の技術】
従来、テキストデータの中で使用されている単独の単語を統計的に処理することにより単独の単語を自動的に分類するものとして、例えばテキストデータにおいて出現する確率が所定値以上の単語クラス列にトークンを付与し、テキストデータの単語・トークン列に含まれる単語とトークンとが混在する集合を、テキストデータの単語・トークン列の生成確率が最大になるように分割し、トークンをテキストデータに存在する連語に置換し、以て単語と連語とをまとめて自動的に分類する技術が知られている(例えば、特許文献1参照)。
【0003】
また、膨大な文章情報を要約したり、音声で聞き取りやすい表現に直したり、逆に話し言葉で書かれた文章を読みやすい書き言葉に変換したり、新聞記事等から人名や地名や組織名や日時などの文章の重要な構成要素(固有表現)を抽出したりするシステムにおいて、文字列の制約を含む書き換え規則や固有表現抽出規則を、処理の順序を気にすることなく、宣言的かつ簡潔に指定することを可能にする技術が知られている(例えば、特許文献2参照)。この技術で、翻訳装置により、ユーザが記述した書き換え規則の集合を確定節文法の規則の集合に変換し、次に、規則統合装置により、確定節文法の規則の集合を高速並行処理の可能な統合された規則に変換する。書き換え実行装置は、統合された規則と変換すべき文章(原文)を受けとり、変換した結果を出力する。
【0004】
【特許文献1】
特開平10−97286号公報
【特許文献2】
特開2001−67355号公報
【0005】
【発明が解決しようとする課題】
しかしながら、上述した特許文献1や特許文献2に開示された技術では、単語と連語とを自動的に分類するに止まり、単語や連語の持つ意味や内容までを表現することはできない。
【0006】
また、近年の通信技術や情報制御技術の発達に伴い、異なる場所及び時間で、各々の情報機器端末において、電子メールの交換やホームページの閲覧に代表されるような文字情報の交換が頻繁に行われている。しかし、文字情報に含まれる単語及び連語の解読は人間の記憶や判断に基づいて行われており、時として文脈や構文の判断ミス、記憶のミスに起因して文字情報の提供者と文字情報の入手者との間で、文章の意味や内容が異なって理解される場合がある。その結果、文字情報を用いた意志伝達がスムーズに行われないという課題がある。
【0007】
この発明は、上記のような課題を解決するためになされたものであり、文章の意味及び内容を確実に伝えることのできる文章情報処理装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る文章情報処理装置は、プレーンな文章を入力するプレーン文章入力部と、形態要素解析及び構文解析に使用する辞書を記憶する辞書記憶部と、プレーン文章入力部から入力されたプレーンな文章を辞書記憶部に記憶された辞書を用いて形態要素解析することによりトークンに分解する形態要素解析部と、プレーンな文章の構文に基づき、形態要素解析部で得られたトークンの品詞を解析して意味のある語を含む構造化された文章を生成する構文解析部と、マークアップに使用されるデータを記憶するデータ記憶部と、構文解析部で生成された構造化された文章に含まれる意味のある語に対して、データ記憶部に該意味のある語に関係付けて記憶されているデータを読み出して付加するマークアップを行う要素品格処理部と、要素品格処理部で生成されたマークアップ文章を出力するマークアップ文章出力部とを備えているものである。
【0009】
【発明の実施の形態】
以下、この発明の実施の形態を図面を参照しながら詳細に説明する。なお、この文章情報処理装置は、例えばパーソナルコンピュータ、サーバコンピュータ、PDAといった種々の情報処理装置の上に、ソフトウェア処理によって構築することができる。
実施の形態1.
図1は、この発明の実施の形態1に係る文章情報処理装置の構成を示すブロック図である。この文章情報処理装置は、入力部1、マークアップ処理部2及び出力部3から構成されている。
【0010】
入力部1は、文章情報処理装置が構築される情報処理装置の入力装置から構成することができる。この入力部1は、種々の形態の文章からプレーンな文章を生成してマークアップ処理部2に送る。マークアップ処理部2は、詳細は後述するが、プレーンな文章にマークアップを付したマークアップ文章を生成し、出力部3に送る。出力部3は、マークアップ処理部2から送られてくるマークアップ文章を出力する。
【0011】
マークアップ処理部2は、プレーン文章入力部10、辞書記憶部11、形態要素解析部12、構文解析部13、データ記憶部14、要素品格処理部15、マークアップ文章記憶部16及びマークアップ文章出力部17から構成されている。
【0012】
プレーン文章入力部10は、入力部1から送られてくるプレーンな文章を受け取って形態要素解析部12に送る。辞書記憶部11は、形態要素解析部12における形態要素解析及び構文解析部13における構文解析にそれぞれ使用される辞書を記憶する。
【0013】
形態要素解析部12は、プレーン文章入力部10から受け取ったプレーンな文章を、辞書記憶部11に格納されている辞書を参照しながら形態素解析を行ってトークンに分解する。ここで、トークンとは、最小の意味単位を構成する文字列をいう。この形態要素解析部12でトークンに分解されたデータは、構文解析部13に送られる。なお、この形態要素解析部12で行われるトークン分解の技術は周知であるので、この明細書では詳細な説明は省略する。
【0014】
構文解析部13は、形態要素解析部12からのトークン分解されたデータを入力し、辞書記憶部11に格納されている辞書を参照しながら文章の構文に基づいて品詞を解析する構文解析を実行して文章構造を表すデータを生成する。この構造化された文章には、位置要素、時間要素、固有名詞要素、行為要素といった意味のある語(単語及び連語を含む。以下同じ)が含まれる。この構文解析部13で生成された構造化された文章は、要素品格処理部15に送られる。なお、この構文解析部13で行われる構造化された文章を生成する技術は周知であるので、この明細書では詳細な説明は省略する。
【0015】
データ記憶部14は、マークアップに使用される種々のデータをデータベースとして格納する。このデータ記憶部14に形成されるデータベースは、入力部1から入力されるデータ及びマークアップ処理部2の結果によるデータに基づいて随時更新される。
【0016】
要素品格処理部15は、構文解析部13から送られてくる構造化された文章に含まれる意味のある語に対し、その語の意味又は内容を表すデータを付加するマークアップを実行し、構造化されたマークアップ文章を生成する。この要素品格処理部15で生成されたマークアップ文章は、マークアップ文章記憶部16に送られる。
【0017】
マークアップ文章記憶部16は、要素品格処理部15から送られてくるマークアップ文章を記憶する。このマークアップ文章記憶部16に格納されたマークアップ文章は、マークアップ文章出力部17から読み出される。マークアップ文章出力部17は、マークアップ文章記憶部16に記憶されているマークアップ文章を読み出し、出力部3に送る。
【0018】
ここで、以上のように構成される文章情報処理装置の概要を理解するために、ブレーンな文章からマークアップ文章が作成される過程を、製品発表に使用されるプレリリースの文章を例にとって説明する。プレリリース原稿の一部は、以下にクオーテーションで囲って示す文章から成るものとする。
【0019】
“「○○株式会社は、カーナビ業界初でJava(登録商標)TMアプリに対応したDVDカーナビゲーションシステム「Aシリーズ」2モデルと、高性能ながら普及価格を実現したDVDカーナビゲーションシステム「Bシリーズ」2モデルの合計4モデルを4月20日より発売しますので、お知らせします。」”
【0020】
このプレリリース原稿が入力部1からマークアップ処理部2に入力されると、プレーン文章入力部10を経由して形態要素解析部12に供給される。形態要素解析部12は、辞書記憶部11に記憶された辞書を参照しながら形態要素解析を実行し、以下にクオーテーションで囲って示すトークン分解されたデータを出力する。
【0021】
“/「/○○/株式/会社/は、/カーナビ/業界/初/で/Java(登録商標)TM/アプリ/に/対応した/DVD/カー/ナビゲーション/システム/「/A/シリーズ/」/2/モデル/と、/高性能/ながら/普及/価格/を/実現/した/DVD/カー/ナビゲーション/システム/「/B/シリーズ/」/2/モデル/の/合計/4/モデル/を/4/月/20/日/より/発売します/ので、/お知らせします。/」/”
【0022】
この形態要素解析部12から出力されるトークン分解されたデータは、構文解析部13に送られる。構文解析部13は、形態要素解析部12からのデータを受け取り、辞書記憶部11に記憶された辞書を参照しながら構文解析を実行し、下記表1に示す構造化された文章を出力する。
【0023】
Figure 2004310691
Figure 2004310691
【0024】
この構文解析部13で生成された構造化された文章は、要素品格処理部15に送られる。要素品格処理部15は、構文解析部13からの構造化された文章を入力し、データ記憶部14に形成されたデータベースを参照しながら、マークアップを付加する処理を実行し、下記表2に示すような意味のある語にマークアップがなされたマークアップ文章を生成する。この要素品格処理部15で生成されたマークアップ文章は、マークアップ文章記憶部16に格納される。
【0025】
Figure 2004310691
Figure 2004310691
Figure 2004310691
Figure 2004310691
【0026】
このように要素品格処理部15でマークアップがなされることにより、文章の意味のある語に対しては、その意味又は内容がマークアップされたマークアップ文章が生成される。意味のある単語又は連語のマークアップとは、上述した表1及び表2に示した例では、「○○株式会社」に対して「位置」、「名称」、「役員」、「組織」、「住所」「連絡先」等の内容が付加され、各々の内容について説明文の付加又はメタ定義がなされることである。なお、マークアップの対象が別のオブジェクトである場合は、各々の要素をメタ定義のURI(Uniform Resource Identifier)として定義することができる。
【0027】
上述した入力部1は、図2に示すように、上述したプレリリース原稿のようなテキストから成るプレーンな文章を入力するテキスト文章入力部1aから構成することができる。テキスト文章入力部1aは、例えばキーボード、外部記憶媒体といったプレーンなテキスト文章を生成できる種々の機器から構成できる。また、出力部3は、例えばディスプレイ装置やプリンタ装置といった文章を可視化できる種々の装置から構成できる。この場合、出力部3は、図3〜図5に示すような、マークアップ文章を外部に送信する例えば通信機器から成る外部通信出力部3aで構成することもできる。
【0028】
また、入力部1は、図3に示すように、上述したプレリリース原稿のようなプレーンな文章を外部の通信機器から入力する外部通信入力部1bから構成することができる。また、出力部3は、マークアップ文章を外部に送信する例えば通信機器から成る外部通信出力部3aで構成できる。
【0029】
また、入力部1は、図4に示すように、例えばインターネット上で使用されるHTML(Hyper Text Markup Language)のようなマークアップがなされた文章を入力する外部通信入力部1cと、この外部通信入力部1cからの文章を解析してマークアップを除去し、プレーンな文章を生成するマークアップ文章解析部1dから構成できる。また、出力部3は、マークアップ文章を外部に送信する例えば通信機器から成る外部通信出力部3aで構成できる。
【0030】
更に、入力部1は、図5に示すように、電子メールのような構造化された文章入力する外部通信入力部1eと、この外部通信入力部1eから入力された文章の構造を解析し、ヘッダ部とボディ部との関連性を保ちつつプレーンな文章に変換する電子メール構造解析部1fから構成できる。また、出力部3は、マークアップ文章を外部に送信する例えば通信機器から成る外部通信出力部3aで構成できる。
【0031】
電子メールのヘッダ部には、プロトコルタイプ(X−STMP−Result)、送信日付(Date)、発信者(From)、宛先(To、CC、BCC)、タイトル(Subject)、メールID(Message−Id)、MIME種別(MIME−Version:1.0)、メールソフトの種別(X−Mailer)、優先度(X−Priority)、メッセージの優先度(X−MSMail−Priority)、ボディのタイプ(Content−Type)、ボディの書式(Cntent−Transfer−Encoding)等を表すデータが含まれる。
【0032】
ボディ部は、メッセージの本体であり、プレーンな文章にから構成されている。電子メール構造解析部1fは、ヘッダ部に含まれるボディのタイプ(Content−Type)を参照してボディ部がテキストであるかどうかを判断し、テキストである場合はプレーンな文章としてそのまま出力し、テキストでない場合はマークアップを削除してプレーンな文章に変換して出力する。また、電子メール構造解析部1fは、送信日付(Date)、発信者(From)、宛先(To、CC、BCC)、タイトル(Subject)といった情報をデータ記憶部14に形成されたデータベースに格納する。
【0033】
今、友人(山田太郎)が、私(川上花子)に、2002年12月25日20時00分に、「明日の午後7時に、あなたの家に行く。」というメッセージを送る場合を考える。この場合、ヘッダ部には、発信者として山田太郎の電子メールアドレスが、宛先に川上花子の電子メールアドレスが、送信日付に2002年12月20時00分がそれぞれ記載される。
【0034】
この電子メールが、図5に示した外部通信入力部1eで受信されて電子メール構造解析部1fでブレーンな文章に変化された後、プレーン文章入力部10を経由して形態要素解析部12に入力されると、形態要素解析部12は、辞書記憶部11に記憶された辞書を参照しながら形態要素解析を行い、以下にクオーテーションで囲って示すトークン分解されたデータを出力する。
【0035】
“/「/明日/の/午後/7/時/に/、/あなた/の/家/に/行く/。/」/”
【0036】
この形態要素解析部12から出力されるトークン分解されたデータは、構文解析部13に送られる。構文解析部13は、形態要素解析部12からのデータを受け取り、辞書記憶部11に記憶された辞書を参照しながら構文解析を実行し、下記表3に示す構造化された文章を出力する。
【0037】
Figure 2004310691
【0038】
この構文解析部13で生成された構造化された文章は、要素品格処理部15に送られる。要素品格処理部15は、構文解析部13からの構造化された文章を入力し、データ記憶部14に記憶されたデータを参照しながら、マークアップを付加する処理を実行し、下記表4に示すような意味のある語にマークアップがなされたマークアップ文章を生成する。この要素品格処理部15で生成されたマークアップ文章は、マークアップ文章記憶部16に格納される。
【0039】
Figure 2004310691
Figure 2004310691
【0040】
このように電子メールのメッセージは、意味のある語に対しては、その意味又は内容がマークアップされる。意味のある語のマークアップとは、上述した例では、メッセージ中では明記されていなかった主語として、「名称」、住所」、「連絡先」といったデータが付加され、各々のデータについての説明文又はメタ定義がなされる。なお、マークアップの対象が別のオブジェクトである場合は、各々の要素をメタ定義のURIとして定義することができる。
【0041】
次に、上述したマークアップ処理部2の一部を構成する要素品格処理部15について、詳細に説明する。
【0042】
要素品格処理部15は、図6に示すように、要素関係解析部20、固有名要素処理部21、時間要素処理部22、位置要素処理部23、行為要素処理部24及びデータ収集部25から構成されている。
【0043】
データ収集部25には、現在位置推定部30、時刻処理部31及び上述したデータ記憶部14が接続されている。データ収集部25は、これら現在位置推定部30、時刻処理部31及びデータ記憶部14からデータを取得して、固有名要素処理部21、時間要素処理部22、位置要素処理部23及び行為要素処理部24における処理に提供する。
【0044】
現在位置推定部30は、文章作成者及び文章に表れる位置要素の現在位置を推定し、要素品格処理部15のデータ収集部25に送る。また、時刻処理部31は、現在の日時に基づき時刻要素(後述する)に対応する日時を算出し、要素品格処理部15のデータ収集部25に送る。
【0045】
要素品格処理部15は、構文解析部13から送られてくる構文解析済み文章に含まれる語の各々について、図7のフローチャートに示す手順に従った処理を実行する。即ち、要素品格処理部15では、先ず、構文解析部13から送られてくる構文解析済み文章に含まれる語が名詞要素であるかどうかが調べられる(ステップST10)。そして、名詞要素であることが判断されると、要素関係解析部20が起動され、要素関係解析処理が実行される(ステップST11)。
【0046】
一方、上記ステップST10で、名詞要素でないことが判断されると、次いで、上記語が動詞要素であるかどうかが調べられる(ステップST12)。そして、動詞要素であることが判断されると、要素関係解析部20が起動され、要素関係解析処理が実行される(ステップST11)。一方、上記語が動詞要素でもないことが判断されると、その語は意味要素でないことが認識され、当該語に対する処理を終了して次の語の処理に移る。以下、構文解析部13から送られてくる構文解析済み文章に含まれる全ての語についての処理が終了するまで、ステップST10〜ST12の処理が繰り返される。
【0047】
要素関係解析部20は、上述した要素品格処理部15において、構文解析済み文章に含まれる語が名詞要素又は動詞要素であると判断された場合に、更に位置要素、時間要素、固有名要素及び動詞要素といった意味要素の何れかであるかを判断して、各意味要素に対応する処理を実行する。
【0048】
具体的には、要素関係解析部20は、図8のフローチャートに示す手順に従った処理を実行する。即ち、要素関係解析部20では、先ず、構文解析済み文章に含まれる語が名詞要素であるかどうかが調べられる(ステップST20)。そして、名詞要素であることが判断されると、次いで、その名詞要素は、位置要素であるかどうかが調べられる(ステップST21)。位置名要素には、文章作成者の位置及び文章に表れる位置が含まれる。ここで、位置要素であることが判断されると、位置要素処理部23に制御が移され、位置要素処理が実行される(ステップST22)。その後、シーケンスは上述した要素品格処理部15の処理にリターンする。
【0049】
上記ステップST21で、位置要素でないことが判断されると、次いで、名詞要素は、時間要素であるかどうかが調べられる(ステップST23)。時間名要素には、文章作成の時間及び文章に表れる時間が含まれる。ここで、時間要素であることが判断されると、時間要素処理部22に制御が移され、時間要素処理が実行される(ステップST24)。その後、シーケンスは上述した要素品格処理部15の処理にリターンする。
【0050】
上記ステップST23で、時間要素でないことが判断されると、次いで、名詞要素は、固有名要素であるかどうかが調べられる(ステップST25)。固有名要素には、文章作成者の固有名及び文章に表れる固有名が含まれる。ここで、固有名要素であることが判断されると、固有名要素処理部21に制御が移され、固有名要素処理が実行される(ステップST26)。その後、シーケンスは上述した要素品格処理部15の処理にリターンする。ステップST25で、固有名要素でないことが判断された場合もシーケンスは上述した要素品格処理部15の処理にリターンする。
【0051】
上記ステップST20で、構文解析済み文章に含まれる語が名詞要素でないことが判断されると、次いで、その語が動詞要素であるかどうかが調べられる(ステップST27)。そして、動詞要素であることが判断されると、行為要素処理部24に制御が移され、行為要素処理が実行される(ステップST28)。その後、シーケンスは上述した要素品格処理部15の処理にリターンする。ステップST27で、動詞要素でないことが判断された場合もシーケンスは上述した要素品格処理部15の処理にリターンする。
【0052】
固有名要素処理部21は、固有名要素に対するマークアップ処理を行う。具体的には、固有名要素処理部21は、図9のフローチャートに示す手順に従った処理を実行する。即ち、固有名要素処理部21では、先ず、固有名要素のマークアップ要素データが収集される(ステップST30)。具体的には、固有名要素処理部21は、その固有名要素に関係付けられたデータを、データ記憶部14に形成されたデータベースからデータ収集部25を介して収集する。
【0053】
次いで、固有名要素マークアップの付与が行われる(ステップST31)。即ち、固有名要素処理部21は、上記ステップST30で収集したデータを固有名要素に対応付ける。次いで、内部データと該テキストとの関係付けマークアップが行われる(ステップST32)。具体的には、固有名要素処理部21は、収集したデータを文章構造内にマークアップとして収容する。これにより、例えば表2に示すように、「○○株式会社」のマークアップとして、タグPeculiar Nameに囲まれた「位置(Position)」、「名称」、「役員」、「組織」、「住所」、「連絡先」等がタグを付されて組み込まれる。その後、シーケンスは、要素関係解析部20の処理にリターンする。
【0054】
位置要素処理部23は、位置要素に対するマークアップ処理を行う。具体的には、位置要素処理部23は、図10のフローチャートに示す手順に従った処理を実行する。即ち、位置要素処理部23では、先ず、位置要素のマークアップ要素データが収集される(ステップST40)。具体的には、位置要素処理部23は、その位置要素に対応する現在位置を現在位置推定部30からデータ収集部25を介して収集し、更に、この収集した現在位置に関係付けられたデータをデータ記憶部14に形成されたデータベースからデータ収集部25を介して収集する。
【0055】
次いで、位置要素マークアップの付与が行われる(ステップST41)。即ち、位置要素処理部23は、上記ステップST40で収集したデータを位置要素に対応付ける。次いで、内部データと該テキストの関係付けマークアップが行われる(ステップST42)。具体的には、位置要素処理部23は、収集したデータをテキスト文章構造内にマークアップとして収容する。これにより、例えば表2に示すように、「○○株式会社」のマークアップとして、タグPositionに囲まれた「経度」、「緯度」といったデータがタグを付されて組み込まれる。その後、シーケンスは、要素関係解析部20の処理にリターンする。
【0056】
時間要素処理部22は、時間要素に対するマークアップ処理を行う。具体的には、時間要素処理部22は、図11のフローチャートに示す手順に従った処理を実行する。即ち、時間要素処理部22では、先ず、時間要素のマークアップ要素データの収集が行われる(ステップST50)。具体的には、時間要素処理部22は、その時間要素に対応する日時を時刻処理部31からデータ収集部25を介して収集する。
【0057】
次いで、時間要素マークアップの付与が行われる(ステップST51)。即ち、時間要素処理部22は、表4に示した例では、上記ステップST50で収集した日時を時間要素に対応付ける。次いで、内部データと該テキストの関係付けマークアップが行われる(ステップST52)。具体的には、時間要素処理部22は、収集した日時をテキスト文章構造内にマークアップとして収容する。これにより、例えば表4に示すように、「明日の午後7時に」のマークアップとして、タグTimeで囲まれた「2002−12−26T19:00Z」といったデータがタグを付されて組み込まれる。その後、シーケンスは、要素関係解析部20の処理にリターンする。
【0058】
行為要素処理部24は、行為要素に対するマークアップ処理を行う。具体的には、行為要素処理部24は、図12のフローチャートに示す手順に従った処理を実行する。即ち、行為要素処理部24では、先ず、行為要素のマークアップ要素データの収集が行われる(ステップST60)。具体的には、行為要素処理部24は、データ収集部25を介して、その行為に関係付けられたデータをデータ記憶部14に形成されたデータベースから収集する。
【0059】
次いで、行為要素マークアップの付与が行われる(ステップST61)。即ち、行為要素処理部24は、上記ステップST60で収集したデータを行為要素に対応付ける。次いで、内部データと該テキストの関係付けマークアップが行われる(ステップST62)。具体的には、行為要素処理部24は、収集したデータをテキスト文章構造内にマークアップとして収容する。これにより、例えば表4に示すように、「行く」のマークアップとして、タグActに囲まれた空要素が組み込まれる。その後、シーケンスは、要素関係解析部20の処理にリターンする。
【0060】
以上説明したように、この実施の形態1に係る文章情報処理装置によれば、様々な文字情報や文章を語(単語又は連語)に分解して品詞により分類し、文章構造や情報機器端末に蓄積されているデータベースに基づいて、分類された語に対して意味付け又は内容付けのためのマークアップを施すことにより、文章に含まれている語の意味又は内容が自動的に付加されるので、文章の受け手に対して単語や連語の意味の曖昧さをなくし、意味内容の正確な伝送を行うことができる。その結果、文字情報を用いた意志伝達をスムーズに行うことができる。
【0061】
なお、マークアップされた単語や連語の意味又は内容は文章表現だけでなく、音声や映像などのオブジェクトをも表現できる。従って、様々な文字情報、文章の交換時において、意志伝達をスムーズに行うことができる。
【0062】
なお、上述した実施の形態1では、文章情報処理装置は情報処理装置の上に構築されるものとして説明したが、独立したハードウェアで構成するは勿論可能である。
【0063】
【発明の効果】
以上のように、この発明によれば、文字情報や文章を語に分解して品詞により分類し、文章構造や蓄積されているデータに基づいて、分類された語に対して意味付け又は内容付けのためのマークアップを施すことにより、文章に含まれている語の意味又は内容が自動的に付加されるので、文章の受け手に対して語の意味の曖昧さをなくし、部の意味及び内容を正確に伝えることができる効果がある。
【図面の簡単な説明】
【図1】この発明の実施の形態1に係る文章情報処理装置の構成を示すブロック図である。
【図2】この発明の実施の形態1に係る文章情報処理装置の変形例の構成を示すブロック図である。
【図3】この発明の実施の形態1に係る文章情報処理装置の他の変形例の構成を示すブロック図である。
【図4】この発明の実施の形態1に係る文章情報処理装置の更に他の変形例の構成を示すブロック図である。
【図5】この発明の実施の形態1に係る文章情報処理装置の更に他の変形例の構成を示すブロック図である。
【図6】図1に示した要素品格処理部の構成を示すブロック図である。
【図7】図6に示した要素品格処理部で実行される処理を示すフローチャートである。
【図8】図6に示した要素関係解析部で実行される処理を示すフローチャートである。
【図9】図6に示した固有名要素処理部で実行される処理を示すフローチャートである。
【図10】図6に示した位置要素処理部で実行される処理を示すフローチャートである。
【図11】図6に示した時間要素処理部で実行される処理を示すフローチャートである。
【図12】図6に示した行為要素処理部で実行される処理を示すフローチャートである。
【符号の説明】
1 入力部、1a テキスト文章入力部、1b,1c,1e 外部通信入力部、1d マークアップ文書解析部、1f 電子メール構造解析部、2 マークアップ処理部、3 出力部、3a 外部通信出力部、10 プレーン文章入力部、11 辞書記憶部、12 形態要素解析部、13 構文解析部、14 データ記憶部、15 要素品格処理部、16 マークアップ文章記憶部、17 マークアップ文章出力部、20 要素関係解析部、21 固有名要素処理部、22 時間要素処理部、23 位置要素処理部、24 行為要素処理部、25 データ収集部、30 現在位置推定部、31 時刻処理部。

Claims (13)

  1. プレーンな文章を入力するプレーン文章入力部と、
    形態要素解析及び構文解析に使用する辞書を記憶する辞書記憶部と、
    前記プレーン文章入力部から入力されたプレーンな文章を前記辞書記憶部に記憶された辞書を用いて形態要素解析することによりトークンに分解する形態要素解析部と、
    前記プレーンな文章の構文に基づき、前記形態要素解析部で得られたトークンの品詞を解析して意味のある語を含む構造化された文章を生成する構文解析部と、
    マークアップに使用されるデータを記憶するデータ記憶部と、
    前記構文解析部で生成された構造化された文章に含まれる意味のある語に対して、前記データ記憶部に該意味のある語に関係付けて記憶されているデータを読み出して付加するマークアップを行う要素品格処理部と、
    前記要素品格処理部で生成されたマークアップ文章を出力するマークアップ文章出力部
    とを備えた文章情報処理装置。
  2. プレーンなテキスト文章を生成してプレーン文章入力部に送るテキスト文章入力部を更に備えたことを特徴とする請求項1記載の文章情報処理装置。
  3. 外部から通信によりプレーンな文章を入力してプレーン文章入力部に送る外部通信入力部を更に備えたことを特徴とする請求項1記載の文章情報処理装置。
  4. 外部から通信によりマークアップがなされた文章を入力する外部通信入力部と、
    前記外部通信入力部からのマークアップがなされた文章を解析することによりマークアップを除去してプレーンな文章を生成し、マークアップ文章入力部に送るマークアップ文章解析部
    とを更に備えたことを特徴とする請求項1記載の文章情報処理装置。
  5. 外部から通信により電子メールを入力する外部通信入力部と、
    前記外部通信入力部からの電子メールの構造を解析してプレーンな文章を生成、マークアップ文章入力部に送る電子メール構造解析部
    とを更に備えたことを特徴とする請求項1記載の文章情報処理装置。
  6. マークアップ文章出力部からのマークアップ文章を通信により外部に送出する外部通信出力部、を更に備えたことを特徴とする請求項2から請求項5のうちのいずれか1項記載の文章情報処理装置。
  7. 要素品格処理部は、
    構文解析部で生成された構造化された文章に含まれる意味のある語に対して、意味の内容を表す意味要素を関係付ける要素関係解析部を備えたことを特徴とする請求項1記載の文章情報処理装置。
  8. 固有名を表す固有名要素にマークアップを付加する固有名要素処理部を更に備え、
    要素関係解析部は、意味要素が固有名要素である場合に、前記固有名要素処理部を起動することを特徴とする請求項7記載の文章情報処理装置。
  9. 時刻を表す時間要素にマークアップを付加する時間要素処理部を更に備え、
    要素関係解析部は、意味要素が時間要素である場合に、前記時間要素処理部を起動することを特徴とする請求項7記載の文章情報処理装置。
  10. 時間要素に対応する日時を算出する時刻処理部を更に備え、
    時間要素処理部は、前記時刻処理部からの日時をマークアップとして前記時間要素に付加することを特徴とする請求項9記載の文章情報処理装置。
  11. 位置を表す位置要素にマークアップを付加する位置要素処理部を更に備え、
    要素関係解析部は、意味要素が位置要素である場合に、前記位置要素処理部を起動することを特徴とする請求項7記載の文章情報処理装置。
  12. 位置要素に対応する現在位置を推定する現在位置推定部を更に備え、
    位置要素処理部は、前記現在位置推定部からの現在位置をマークアップとして前記位置要素に付加することを特徴とする請求項11記載の文章情報処理装置。
  13. 行為を表す行為要素にマークアップを付加する行為要素処理部を更に備え、
    要素関係解析部は、意味要素が行為要素である場合に、前記行為要素処理部を起動することを特徴とする請求項7記載の文章情報処理装置。
JP2003106878A 2003-04-10 2003-04-10 文章情報処理装置 Pending JP2004310691A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003106878A JP2004310691A (ja) 2003-04-10 2003-04-10 文章情報処理装置
US10/806,092 US7269789B2 (en) 2003-04-10 2004-03-23 Document information processing apparatus
DE102004018446A DE102004018446A1 (de) 2003-04-10 2004-04-08 Dokumenteninformations-Verarbeitungsvorrichtung
CN2004100324492A CN1604076B (zh) 2003-04-10 2004-04-09 文章信息处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003106878A JP2004310691A (ja) 2003-04-10 2003-04-10 文章情報処理装置

Publications (1)

Publication Number Publication Date
JP2004310691A true JP2004310691A (ja) 2004-11-04

Family

ID=33127936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003106878A Pending JP2004310691A (ja) 2003-04-10 2003-04-10 文章情報処理装置

Country Status (4)

Country Link
US (1) US7269789B2 (ja)
JP (1) JP2004310691A (ja)
CN (1) CN1604076B (ja)
DE (1) DE102004018446A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
JP4822677B2 (ja) * 2004-07-20 2011-11-24 キヤノン株式会社 通信装置、通信方法、コンピュータプログラム及びコンピュータ読み取り可能な記憶媒体
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
JP2008538016A (ja) 2004-11-12 2008-10-02 メイク センス インコーポレイテッド 概念または項目を用いて知識相関を構成することによる知識発見技術
TWI262682B (en) * 2004-11-18 2006-09-21 Inst Information Industry Message gateway and method and system for message dispatching based on group communication
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US20110213841A1 (en) * 2007-06-25 2011-09-01 Reflexion Networks, Inc. System and method for generating an electronic communication
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20150066963A1 (en) * 2013-08-29 2015-03-05 Honeywell International Inc. Structured event log data entry from operator reviewed proposed text patterns
US9740689B1 (en) * 2014-06-03 2017-08-22 Hrl Laboratories, Llc System and method for Farsi language temporal tagger
JP7110644B2 (ja) * 2018-03-22 2022-08-02 カシオ計算機株式会社 情報表示装置、情報表示方法及び情報表示プログラム
CN110263312B (zh) * 2019-06-19 2023-09-12 北京百度网讯科技有限公司 文章生成方法、装置、服务器和计算机可读介质
CN110598222B (zh) * 2019-09-12 2023-05-30 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581056B1 (en) * 1996-06-27 2003-06-17 Xerox Corporation Information retrieval system providing secondary content analysis on collections of information objects
JP3875357B2 (ja) 1996-08-02 2007-01-31 富士通株式会社 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
US5848415A (en) * 1996-12-18 1998-12-08 Unisys Corporation Selective multiple protocol transport and dynamic format conversion in a multi-user network
US6635089B1 (en) * 1999-01-13 2003-10-21 International Business Machines Corporation Method for producing composite XML document object model trees using dynamic data retrievals
JP2001067355A (ja) 1999-08-27 2001-03-16 Nippon Telegr & Teleph Corp <Ntt> 文字列制約記述可能な文章書き換え・情報抽出方法および装置ならびに記録媒体
US6748569B1 (en) * 1999-09-20 2004-06-08 David M. Brooke XML server pages language
US7020685B1 (en) * 1999-10-08 2006-03-28 Openwave Systems Inc. Method and apparatus for providing internet content to SMS-based wireless devices
US7114147B2 (en) * 2000-03-09 2006-09-26 Electronic Data Systems Corporation Method and system for reporting XML data based on precomputed context and a document object model
US7330811B2 (en) 2000-09-29 2008-02-12 Axonwave Software, Inc. Method and system for adapting synonym resources to specific domains
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
US6996772B2 (en) * 2001-07-25 2006-02-07 Hewlett-Packard Development Company, L.P. Formatting a content item in a text file using a discrimination stylesheet created using a heuristics stylesheet
JP2004054631A (ja) * 2002-07-19 2004-02-19 Internatl Business Mach Corp <Ibm> 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
US20040230898A1 (en) * 2003-05-13 2004-11-18 International Business Machines Corporation Identifying topics in structured documents for machine translation
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US20050131935A1 (en) * 2003-11-18 2005-06-16 O'leary Paul J. Sector content mining system using a modular knowledge base

Also Published As

Publication number Publication date
US20040205670A1 (en) 2004-10-14
DE102004018446A1 (de) 2004-12-23
CN1604076A (zh) 2005-04-06
CN1604076B (zh) 2010-05-05
US7269789B2 (en) 2007-09-11

Similar Documents

Publication Publication Date Title
KR100890691B1 (ko) 언어학적으로 지능적인 텍스트 압축방법 및 그 처리장치
US8423347B2 (en) Natural language personal information management
JP2004310691A (ja) 文章情報処理装置
JP5247983B2 (ja) アクション可能な電子メールドキュメント
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP4625535B1 (ja) 情報抽出システム及び情報抽出プログラム
JP2004233577A (ja) 音声認識辞書作成方法
Nuzzolese et al. ACM: article content miner for assessing the quality of scientific output
JP3691773B2 (ja) 文章解析方法とその方法を利用可能な文章解析装置
CN113448544A (zh) 一种程序开发中文档自动生成方法及系统
Goldfarb Future directions in SGML/XML
Solberg A corpus builder for Wikipedia
WO2001055901A1 (fr) Systeme de traduction automatique, serveur et client de ce systeme
JP2005092616A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Ofoha Towards Igbo Terminological Growth: The ICT Angle
JP2006302146A (ja) 情報管理システム、情報管理方法、プログラム及び記録媒体
Bunt et al. Methodological aspects of semantic annotation
JP3379633B2 (ja) アクティブメッセージ生成方法および装置ならびにアクティブメッセージ生成プログラムを記録した記録媒体
Arndt et al. Eml-the environmental markup language
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033012B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972698B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Kim et al. MathML Based Browser for the Web Application
JPH11338874A (ja) 分散型適合電子文書検索配信装置及び記録媒体
JP2020024598A (ja) 情報処理装置、プログラム及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070921

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071003

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071003

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080319

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080416

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080523

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922