JP2009080625A - 知識構築装置、プログラムおよび知識構築方法 - Google Patents

知識構築装置、プログラムおよび知識構築方法 Download PDF

Info

Publication number
JP2009080625A
JP2009080625A JP2007249018A JP2007249018A JP2009080625A JP 2009080625 A JP2009080625 A JP 2009080625A JP 2007249018 A JP2007249018 A JP 2007249018A JP 2007249018 A JP2007249018 A JP 2007249018A JP 2009080625 A JP2009080625 A JP 2009080625A
Authority
JP
Japan
Prior art keywords
knowledge
document
sentence
unit
knowledge information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007249018A
Other languages
English (en)
Inventor
Yumiko Shimogoori
祐美子 下郡
Takahiro Kawamura
隆浩 川村
Kenta Cho
健太 長
Shinichi Nagano
伸一 長野
Masumi Inaba
真純 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007249018A priority Critical patent/JP2009080625A/ja
Publication of JP2009080625A publication Critical patent/JP2009080625A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】知識ベース構築のコストを軽減する。
【解決手段】入力されたドキュメント中から、ドキュメント構造データベース21に格納されているドキュメント構造にマッチするパターンを有する文章単位を抽出するとともに(文書単位抽出部11)、抽出された文章単位の特徴を抽出し(特徴抽出部12)、ドキュメントに類似した例文の知識情報を、検出された特徴を用いて知識情報データベース25から検索し(知識検索部13)、検索された知識情報に対する編集を受け付け、編集を受け付けた編集後の知識情報と編集前の知識情報の元となる文章単位とを関連付けて知識情報データベース25および知識ベース26を編集する(知識編集部14)。これにより、既存のドキュメント(例文)や知識情報から再利用できそうなパーツを自然文と連動してリストアップする知識ベース構築環境を提供し、知識ベース構築のコストを軽減することができる。
【選択図】 図2

Description

本発明は、知識構築装置、プログラムおよび知識構築方法に関する。
近年、ノウハウや過去の事例などの知識を実務で利用可能なように構築したものであって、データベースシステムの発展型として位置づけられる知識ベースシステムが開発されつつある。ところが、このような知識ベースシステムにおいては、知識ベース構築のコストが大きな問題となっている。
そこで、このような負荷を軽減するために、特許文献1に開示されている自然言語処理による知識コードの作成手法や、特許文献2に開示されている自然文のみによる事例データベースの作成手法などが提案されている。
特開2005−078235号公報 特開2007−011604号公報
しかしながら、前述したような自然文を用いる手法によれば、入力コストの削減に有効であるが、精度に問題が生じるために人手により確認する必要があり、知識ベース構築のコスト軽減の策としては改善の余地がある。
本発明は、上記に鑑みてなされたものであって、知識ベース構築のコストを軽減することができる知識構築装置、プログラムおよび知識構築方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の知識構築装置は、自知識情報を格納する知識ベースを備える知識構築装置において、自然文で記述されたドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースと、例文と、その前記知識情報とを格納する知識情報データベースと、ドキュメントの入力を受け付けるドキュメント受付手段と、前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出する文章単位抽出手段と、前記文章単位の特徴を抽出する特徴抽出手段と、前記ドキュメントに類似した例文の前記知識情報を、前記特徴を用いて前記知識情報データベースから検索する知識検索手段と、前記知識検索手段によって検索された知識情報に対する編集を受け付ける編集受付手段と、前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集する知識編集手段と、を備える。
また、本発明のプログラムは、知識情報を格納する知識ベースを備える知識構築装置を制御するコンピュータを、自然文で記述されたドキュメントの入力を受け付けるドキュメント受付手段と、前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出する文章単位抽出手段と、前記文章単位の特徴を抽出する特徴抽出手段と、例文と、その前記知識情報とを格納する知識情報データベースから、前記特徴を用いて前記ドキュメントに類似した例文の前記知識情報を検索する知識検索手段と、前記知識検索手段によって検索された知識情報に対する編集を受け付ける編集受付手段と、前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集する知識編集手段と、として機能させる。
また、本発明の知識構築方法は、知識情報を格納する知識ベースを備える知識構築装置を制御するコンピュータにおける知識構築方法であって、ドキュメント受付手段が、自然文で記述されたドキュメントの入力を受け付けるステップと、文章単位抽出手段が、前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出するステップと、特徴抽出手段が、前記文章単位の特徴を抽出するステップと、知識検索手段が、例文と、その前記知識情報とを格納する知識情報データベースから、前記特徴を用いて前記ドキュメントに類似した例文の前記知識情報を検索するステップと、編集受付手段が、前記知識検索手段によって検索された知識情報に対する編集を受け付けるステップと、知識編集手段が、前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集するステップと、を含む。
本発明によれば、既存のドキュメントや知識情報から再利用できそうなパーツを自然文と連動してリストアップする知識ベース構築環境を提供し、知識ベース構築のコストを軽減することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる知識構築装置、プログラムおよび知識構築方法の最良な実施の形態を詳細に説明する。
本発明の実施の一形態を図1ないし図11に基づいて説明する。図1は、本発明の実施の一形態にかかる知識構築装置1のモジュール構成図である。知識構築装置1は、例えば、一般的なパーソナルコンピュータである。
図1に示すように、知識構築装置1は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このような知識構築装置1では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、知識構築装置1は、アプリケーションプログラムとして、知識構築プログラムをHDD104に記憶している。この意味で、HDD104は、知識構築プログラムを記憶する記憶媒体として機能する。
また、一般的には、知識構築装置1のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされても良い。
知識構築装置1は、OS上で動作する知識構築プログラムが起動すると、この知識構築プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。知識構築装置1のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
図2は、知識構築装置1の概略構成を示すブロック図である。図2に示すように、知識構築装置1は、知識構築プログラムに従うことにより、文章単位抽出手段として機能する文章単位抽出部11と、特徴抽出手段として機能する特徴抽出部12と、知識検索手段として機能する知識検索部13と、知識編集手段として機能する知識編集部14と、英語翻訳手段として機能する英語翻訳部15と、熟語推論手段として機能する熟語推論部16と、強調表示手段および知識表示手段として機能する知識編集GUI生成部17と、を備える。
また、知識構築装置1は、知識構築プログラムに従うことにより、記憶部であるHDD104に、ドキュメント構造DB21と、専門用語辞書22と、用語オントロジー23と、機器オントロジー24と、知識情報DB25と、知識ベース26と、を形成する。
次に、各部について説明する。
ドキュメント構造DB21は、ドキュメントの文章構造のパターンとその解釈の方法とであるドキュメント構造を格納するデータベースである。ここで、ドキュメントとは、自然文で記述されたものであって、例えばマニュアルや設計仕様書などのように頁構成が固定されていて記述にも定型文の多いものである。図3は、ドキュメント構造DB21の一例を示す模式図である。図3に示すドキュメント構造のパターンカラムは、HTML形式のTABLE型のパターンを示している。なお、$1、$2は変数を意味しており、{}+は1回以上の繰り返しを表す。図3に示すドキュメント構造の解釈カラムは、変数の解釈方法について記述している。なお、パターンの記述方法は、図3に示す方法以外の方法でも良い。
専門用語辞書22は、例えば「DV入力端子」「5.1chサラウンド」などの専門用語を格納したものである。図4は、専門用語辞書22の一例を示す模式図である。図4に示す専門用語辞書22は、ドメイン専用の用語を列挙したものである。
用語オントロジー23は、専門用語辞書22に格納された専門用語の分類体系を記述したものである。図5は、用語オントロジー23の一例を示したものである。例えば、クラス「タイムスリップ」は、クラス「再生」の子クラスである。クラス「タイムスリップ」は、インスタンスとして「追っかけ再生」および「同時録画再生」を有している。また、クラス「再生」は、プロパティとして「メディア」および「番組」を有している。
機器オントロジー24は、機器の分類体系を階層的に記述したものである。図6は、機器オントロジー24の一例を示したものである。図6に示す機器オントロジー24の例においては、クラスが「デジタル機器」−「TV」−「液晶」−「東芝芝」−「REGZO」のように階層構造になっている。また、「REGZO Z1000」は、クラス「REGZO」のインスタンスである。
知識情報DB25は、知識情報である述語論理やルールとそれらに対応する例文(複数)とを対応付けて格納するデータベースである。図7は、知識情報DB25の一例を示したものである。図7に示すように、知識情報DB25は、例文に対してファクト形式の述語論理あるいは“If〜then”を表現するルール形式のいずれかを関連付けている。1つの述語論理は複数の例文に対応することがあり、図7に示す例では1行目と2行目は同じ述語論理に対して異なる例文を関連付けている。これにより、表現のゆらぎを吸収することができる。
知識ベース26は、故障や操作を診断するシステムなどの実行システムで使用する知識ベースであり、それぞれのシステムが解釈実行する知識情報であるルールおよび述語論理を格納している。知識ベース26は、知識情報DB25に格納されている知識情報である述語論理やルールからそれぞれのシステムで使用する知識を抽出した実行用の知識ベースである。
知識編集GUI生成部17は、表示部107に表示する知識編集GUI(Graphic User Interface)を生成する。図8は、知識編集GUI30の一例を示したものである。図8に示すように、知識編集GUI30は、知識構築装置1に入力されたドキュメントのビューア30a、抽出されたファクト/ルールのビューア30b〜30d、ルール編集画面30eを有している。図8においては、ドキュメントのビューア30aのドキュメントとファクト/ルールのビューア30bの述語論理一覧とは、対になっている。ドキュメントのビューア30aにおいては、ドキュメント構造DB21のパターンおよび知識情報DB25からファクトやルールが抽出された文章はハイライト表示される。例えば、知識情報DB25からファクトやルールが抽出された文章は、異なる表現(色やフォントの太さなど)で表示される。対応するファクトやルールの表示方法は、例えば以下のように選択可能である。
1.例文中の自然文表示
2.ファクト/ルール形式
3.自然文とファクト/ルール形式を同時表示
すなわち、表示方法としては、自然文のみ、ファクト/ルール(述語論理/ルール)のみ、自然文およびファクト/ルールの両方、の3形態がある。図8のファクト/ルールのビューア30b〜30dにおいては、述語論理一覧30bの中でフォーカスされている「述語論理1」に関連するルールがルール一覧30cに記述される。また、記号:記述論理30dは、述語論理一覧30bの中でフォーカスされている「述語論理1」をファクト形式で表現している。
これにより、ファクトやルールを、知識情報DB25に格納されている例文のいずれかに切り替えて表示することができるので、作成しようとしているルールにその述語論理を使って適切であるかどうかの確認を助けることができる。
また、ファクト/ルールのビューア30b〜30dにおいては、図8に示す例のようにファクト/ルールとロジック(AND、OR、THEN)をノードとして表示する。そして、ルール編集画面30eにおいては、ファクト/ルールノードとロジックノードを組み合わせて新しいルールを編集可能とする。
文章単位抽出部11は、知識構築装置1に入力されたドキュメント中から、ドキュメント構造DB21に格納されている構造にマッチするパターンを有する文章を抽出する。例えば、入力ドキュメントが図9に示すような表であって、図10に示すHTML形式であった場合について検討する。この場合、図3に示すドキュメント構造DB21の例によれば、図10のドキュメントは、1行目のパターンにマッチしている。したがって、変数を意味する$1は、「地上アナログ放送の録画」、「地上デジタル放送で画質を指定した録画」、「外部入力端子からの録画」などである。また、変数を意味する$2は、「R1」、「R2」である。さらに、変数を意味する$3は、「○」、「×」である。解釈の仕方は、図3に示すドキュメント構造DB21の例によれば$1∩$2→$3と記述してあるので、解釈の例としては「地上アナログ放送の録画」∩「R1」→「○」となる。
特徴抽出部12は、専門用語辞書22、用語オントロジー23および機器オントロジー24を用いて、文章単位抽出部11で抽出された文章の特徴を抽出する。
より詳細には、特徴抽出部12は、文章単位抽出部11で抽出された文章を形態素解析し、専門用語辞書22に登録されている専門用語があると判断した場合には、その専門用語をその文章の特徴値の1つとして抽出する。
また、特徴抽出部12は、文章単位抽出部11で抽出された文章中の用語が用語オントロジー23に存在している場合には、その用語を特徴値の1つとして抽出する。さらに、特徴抽出部12は、文章単位抽出部11で抽出された文章中の用語が所属するクラスの他のインスタンスや親クラスも特徴の補足値として抽出する。例えば、図5に示す用語オントロジー23の例においては、特徴抽出部12は、文章単位抽出部11で抽出された文章中に「追っかけ再生」が見つかった場合、所属クラス「タイムスリップ」、そのクラスの他のインスタンス「同時録画再生」、親クラス「再生」が特徴の補足値として抽出される。
加えて、特徴抽出部12は、文章単位抽出部11で抽出された文章中に言及されている機器が何であるかを機器オントロジー24を用いて抽出する。例えば、図6に示す機器オントロジー24の例においては、特徴抽出部12は、文章単位抽出部11で抽出された文章中で「本機」とかかれていた場合には、入力ドキュメントの対象機器が「REGZO Z1000」の場合に「東芝芝」―「液晶」−「TV」を特徴値として抽出する。
知識検索部13は、特徴抽出部12で抽出された特徴値から知識情報DB25を検索し、ファクト形式の述語論理またはルールを抽出する。より詳細には、知識検索部13は、特徴抽出部12で抽出された特徴値を用いて知識情報DB25の例文を検索し、特徴値にヒットした例文の類似度を計算し降順(似ている文章順)にソートし、知識編集GUI30のファクト/ルールのビューア30b〜30dに検索された例文またはその例文に対応するファクト形式の述語論理やルールを表示する。下記に示す式1は、類似度の計算式の例である。
Figure 2009080625
知識編集部14は、知識検索部13で検索されたファクトやルールに対して知識編集GUI30上で編集された新規ファクトおよびルールを対応する文章と結びつけて知識情報DB25および知識ベース26を編集する。
英語翻訳部15は、知識検索部13が知識情報DB25からファクト形式の述語論理を検索できなかった場合に、その単語を英語翻訳してファクト形式の述語論理の候補として知識編集GUI30に表示する。
熟語推論部16は、入力されたドキュメント全体から切り出した熟語の並びの出現回数に基づき、当該熟語を専門用語辞書22に追加する候補として知識編集GUI30に表示する。
次に、上述したような各部による知識構築処理の流れを図11のフローチャートを参照しつつ説明する。知識ベースの開発者は、マニュアルや設計仕様書のような自然文で記述されたドキュメント(図9参照)を用意しておく。
知識構築装置1は、新規文章としてドキュメントの入力を受け付けると(ステップS1:ドキュメント受付手段)、入力されたドキュメント中から、ドキュメント構造DB21に格納されている構造にマッチするパターンを有する文章単位を抽出する(ステップS2:文章単位抽出部11)。
次いで、知識構築装置1は、専門用語辞書22、用語オントロジー23および機器オントロジー24を用いて、ステップS2で抽出された文章単位の特徴を抽出する(ステップS3:特徴抽出部12)。
次いで、知識構築装置1は、ステップS3で抽出された特徴を用いて知識情報DB25に格納されている例文の中から与えられた入力されたドキュメントに類似した述語論理やルールを検索する(ステップS4:知識検索部13)。
ステップS2で抽出された文章単位(知識抽出可能箇所)の自然文に関係する知識情報(述語論理やルール)が存在する場合には(ステップS5のYes)、抽出された文章単位(知識抽出可能箇所)を、知識編集GUI30のビューア30aにおいてハイライト表示(強調表示)する(ステップS6)。
このように抽出された文章単位(知識抽出可能箇所)を、知識編集GUI30のビューア30aにおいてハイライト表示(強調表示)した状態で、知識ベースの開発者が文章単位(知識抽出可能箇所)を選択したのを受け付けると(文書選択受付手段)、検索結果が特徴値にヒットした例文の類似度に基づいて降順(似ている文章順)にソートされ、ステップS2で抽出された文章単位(知識抽出可能箇所)の自然文またはその自然文に関係する知識情報(述語論理やルール)の候補を、知識編集GUI30のファクト/ルールのビューア30b〜30dに一覧表示する(ステップS7)。
一方、ステップS2で抽出された文章単位(知識抽出可能箇所)の自然文に関係する知識情報(述語論理やルール)が存在しない場合には(ステップS5のNo)、知識構築装置1は、その文章単位を英語翻訳してファクト形式の述語論理の候補として知識編集GUI30に表示する(ステップS8:英語翻訳部15)。
また、知識構築装置1は、入力されたドキュメント全体から切り出した熟語の並びの出現回数に基づき、当該熟語を専門用語辞書22に追加する候補として知識編集GUI30に表示する(ステップS9:熟語推論部16)。
知識ベースの開発者は、知識編集GUI30のファクト/ルールのビューア30b〜30dに表示されるファクト形式の述語論理やルールを利用して(編集受付手段)、新しい知識情報(述語論理やルール)を編集することができる。また、知識ベースの開発者は、知識編集GUI30に表示されている文章単位を英語翻訳したファクト形式の述語論理の候補を、選択または編集することができる。さらに、知識ベースの開発者は、知識編集GUI30に表示されている専門用語に追加する候補を、選択または編集することができる。
次いで、知識構築装置1は、編集された新しい知識情報(述語論理やルール)とその知識情報の元となるステップS2で抽出された文章単位(知識抽出可能箇所)の自然文とを関連付けて知識情報DB25および知識ベース26を編集する(ステップS10:知識編集部14)。
より詳細には、知識編集GUI30は、記号、述語論理、ルールをノードとして配置しており、ノードを配置することで新しいルールを編集することができる。
そして、例えば、下記に示す(a)のルールが検索された場合には、下記に示す(b)に編集して登録することができる。(b)のルールは次回より検索対象となる。
(a) If connect(tv,X,by(Y)) and not(sound(tv,output(Z))) then setup(tv, hdmi_sound_input, analog)
(b) If connect(tv,recorder,by(hdmi)) and not(sound(tv,output(recorder))) then setup(tv, hdmi_sound_input, analog)
このように本実施の形態によれば、入力されたドキュメント中から、ドキュメント構造DB21に格納されているドキュメント構造にマッチするパターンを有する文章単位を抽出するとともに、抽出された文章単位の特徴を抽出し、ドキュメントに類似した例文の知識情報を、検出された特徴を用いて知識情報DBから検索し、検索された知識情報に対する編集を受け付け、編集を受け付けた編集後の知識情報と編集前の知識情報の元となる文章単位とを関連付けて知識情報DB25および知識ベース26を編集することにより、既存のドキュメント(例文)や知識情報から再利用できそうなパーツを自然文と連動してリストアップする知識ベース構築環境を提供し、知識ベース構築のコストを軽減することができる。
本発明の実施の一形態にかかる知識構築装置のモジュール構成図である。 知識構築装置の概略構成を示すブロック図である。 ドキュメント構造DBの一例を示す模式図である。 専門用語辞書の一例を示す模式図である。 用語オントロジーの一例を示す模式図である。 機器オントロジーの一例を示す模式図である。 知識情報DBの一例を示す模式図である。 知識編集GUIの一例を示す正面図である。 入力ドキュメントの一例を示す模式図である。 図9のドキュメントをHTML形式で示す模式図である。 知識構築処理の流れを示すフローチャートである。
符号の説明
1 知識構築装置
11 文章単位抽出手段
12 特徴抽出手段
13 知識検索手段
14 知識編集手段
15 英語翻訳手段
16 熟語推論手段
17 強調表示手段、知識表示手段
21 ドキュメント構造DB
22 専門用語辞書
25 知識情報DB
26 知識ベース

Claims (10)

  1. 知識情報を格納する知識ベースを備える知識構築装置において、
    自然文で記述されたドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースと、
    例文と、その前記知識情報とを格納する知識情報データベースと、
    ドキュメントの入力を受け付けるドキュメント受付手段と、
    前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出する文章単位抽出手段と、
    前記文章単位の特徴を抽出する特徴抽出手段と、
    前記ドキュメントに類似した例文の前記知識情報を、前記特徴を用いて前記知識情報データベースから検索する知識検索手段と、
    前記知識検索手段によって検索された知識情報に対する編集を受け付ける編集受付手段と、
    前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集する知識編集手段と、
    を備えることを特徴とする知識構築装置。
  2. 前記文章単位抽出手段で文書単位に関係する知識情報が抽出された場合には、抽出された文章単位を強調表示する強調表示手段と、
    強調表示された文書単位の中から一の文章単位の選択を受け付ける文書選択受付手段と、
    選択を受け付けた文書単位についての知識情報の候補を一覧表示する知識表示手段と、
    を備え、
    前記編集受付手段は、前記知識表示手段により一覧表示された知識情報候補の中から知識情報に対する編集を受け付ける、
    ことを特徴とする請求項1記載の知識構築装置。
  3. 前記文章単位抽出手段で文書単位に関係する知識情報が抽出されなかった場合には、当該文章単位を英語翻訳して知識情報の候補とする英語翻訳手段を備える、
    ことを特徴とする請求項1記載の知識構築装置。
  4. 専門用語を格納する専門用語辞書を更に備え、
    前記特徴抽出手段は、前記文章単位抽出手段で抽出された文章を形態素解析して前記専門用語辞書に登録されている専門用語があると判断した場合には、当該専門用語をその文章の特徴の1つとして抽出する、
    ことを特徴とする請求項1ないし3の何れか一記載の知識構築装置。
  5. 入力された前記ドキュメント全体から切り出した熟語の並びの出現回数に基づき、当該熟語を前記専門用語辞書に追加する候補とする熟語推論手段を更に備える、
    ことを特徴とする請求項4記載の知識構築装置。
  6. 前記知識表示手段は、前記文書選択受付手段により選択を受け付けた文書単位についての知識情報の候補について、ファクト形式の述語論理と自然文との少なくとも何れか一方を切り換えて表示可能である、
    ことを特徴とする請求項2〜5のいずれか一記載の知識構築装置。
  7. 前記知識表示手段は、前記文書選択受付手段により選択を受け付けた文書単位についての知識情報の候補をノードとして配置しており、
    前記編集受付手段は、前記知識表示手段により一覧表示された知識情報候補を組み合わせて新しいルールを編集可能とする、
    ことを特徴とする請求項2〜6のいずれか一記載の知識構築装置。
  8. 前記知識情報は、例文の述語論理またはルールである、
    ことを特徴とする請求項1〜7のいずれか一記載の知識構築装置。
  9. 知識情報を格納する知識ベースを備える知識構築装置を制御するコンピュータを、
    自然文で記述されたドキュメントの入力を受け付けるドキュメント受付手段と、
    前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出する文章単位抽出手段と、
    前記文章単位の特徴を抽出する特徴抽出手段と、
    例文と、その前記知識情報とを格納する知識情報データベースから、前記特徴を用いて前記ドキュメントに類似した例文の前記知識情報を検索する知識検索手段と、
    前記知識検索手段によって検索された知識情報に対する編集を受け付ける編集受付手段と、
    前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集する知識編集手段と、
    として機能させることを特徴とするプログラム。
  10. 知識情報を格納する知識ベースを備える知識構築装置を制御するコンピュータにおける知識構築方法であって、
    ドキュメント受付手段が、自然文で記述されたドキュメントの入力を受け付けるステップと、
    文章単位抽出手段が、前記ドキュメント受付手段によって受け付けられたドキュメントから、前記ドキュメントの文章構造のパターンとその解釈とを示すドキュメント構造を格納するドキュメント構造データベースに格納されている前記ドキュメント構造にマッチするパターンを有する文章単位を抽出するステップと、
    特徴抽出手段が、前記文章単位の特徴を抽出するステップと、
    知識検索手段が、例文と、その前記知識情報とを格納する知識情報データベースから、前記特徴を用いて前記ドキュメントに類似した例文の前記知識情報を検索するステップと、
    編集受付手段が、前記知識検索手段によって検索された知識情報に対する編集を受け付けるステップと、
    知識編集手段が、前記編集受付手段によって編集を受け付けた編集後の前記知識情報と前記編集受付手段による編集前の前記知識情報の元となる前記文章単位抽出手段で抽出された文章単位とを関連付けて前記知識情報データベースおよび前記知識ベースを編集するステップと、
    を含むことを特徴とする知識構築方法。
JP2007249018A 2007-09-26 2007-09-26 知識構築装置、プログラムおよび知識構築方法 Pending JP2009080625A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007249018A JP2009080625A (ja) 2007-09-26 2007-09-26 知識構築装置、プログラムおよび知識構築方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007249018A JP2009080625A (ja) 2007-09-26 2007-09-26 知識構築装置、プログラムおよび知識構築方法

Publications (1)

Publication Number Publication Date
JP2009080625A true JP2009080625A (ja) 2009-04-16

Family

ID=40655334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007249018A Pending JP2009080625A (ja) 2007-09-26 2007-09-26 知識構築装置、プログラムおよび知識構築方法

Country Status (1)

Country Link
JP (1) JP2009080625A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN111723191A (zh) * 2020-05-19 2020-09-29 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统
CN112100976A (zh) * 2020-09-24 2020-12-18 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN112417175A (zh) * 2020-12-07 2021-02-26 北京明略软件系统有限公司 面向维修工单的文档检索方法、系统、计算机及存储介质
CN112732928A (zh) * 2021-01-06 2021-04-30 同济大学 一种基于领域知识的需求模型映射归类方法
WO2024087821A1 (zh) * 2022-10-28 2024-05-02 北京字跳网络技术有限公司 信息处理方法、装置和电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN111723191A (zh) * 2020-05-19 2020-09-29 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统
CN111723191B (zh) * 2020-05-19 2023-10-27 天闻数媒科技(北京)有限公司 一种基于全信息自然语言的文本过滤和提取方法及其系统
CN112100976A (zh) * 2020-09-24 2020-12-18 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN112417175A (zh) * 2020-12-07 2021-02-26 北京明略软件系统有限公司 面向维修工单的文档检索方法、系统、计算机及存储介质
CN112732928A (zh) * 2021-01-06 2021-04-30 同济大学 一种基于领域知识的需求模型映射归类方法
CN112732928B (zh) * 2021-01-06 2022-06-21 同济大学 一种基于领域知识的需求模型映射归类方法
WO2024087821A1 (zh) * 2022-10-28 2024-05-02 北京字跳网络技术有限公司 信息处理方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US6993473B2 (en) Productivity tool for language translators
US5280573A (en) Document processing support system using keywords to retrieve explanatory information linked together by correlative arcs
US10650186B2 (en) Device, system and method for displaying sectioned documents
KR20060041845A (ko) 전자 문서에 포함된 수치 데이터를 시각적으로 강조하는방법 및 장치
JP2006302242A (ja) コントロールパネル機能との検索可能なタスクベースのインターフェイス
JPH07282063A (ja) 機械翻訳装置
US20080147377A1 (en) Method and apparatus for supporting input of translated text, and computer product
JP2009519534A (ja) テキスト編集装置及び方法
JP2009080625A (ja) 知識構築装置、プログラムおよび知識構築方法
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
JP3143345B2 (ja) 文字列検索装置
US20070083855A1 (en) Method and apparatus to enhance context for specific instances of output text in source files
US20230088670A1 (en) Reverse compiler
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
JP2005173999A (ja) 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
CN101932987A (zh) 用于对系统需求规范中的描述符进行管理的方法和装置
JP4607671B2 (ja) 翻訳支援プログラム、方法及び装置
JP5016333B2 (ja) 文書作成支援装置及び文書作成支援プログラム
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2009175941A (ja) 電子辞書装置
JP2005031813A (ja) 抄録作成支援システム、プログラム、抄録作成支援方法及び特許文献検索システム並びにその検索方法
JP2005327023A (ja) ヒット数予想を利用した全文検索の検索方式
JPH08329059A (ja) 汎用参照装置
JP2018097606A (ja) 検索プログラム、検索装置、および検索方法