JP6321787B2

JP6321787B2 - 知識抽出方法及びシステム

Info

Publication number: JP6321787B2
Application number: JP2016518163A
Authority: JP
Inventors: マオイエ; リーフオンジン; チャオレイ; ユエンローンワーン; ジーターン; ジエンボーシュイ
Original assignee: ペキンユニバーシティファウンダーグループカンパニー，リミティド; ファウンダーアパビテクノロジーリミティド; ペキンユニバーシティ
Priority date: 2013-09-29
Filing date: 2013-12-06
Publication date: 2018-05-09
Anticipated expiration: 2033-12-06
Also published as: CN104216934B; US20160217376A1; EP3057000A1; WO2015043076A1; CN104216934A; JP2016538616A; EP3057000A4

Description

本発明は、知識抽出の方法及びシステムに関し、更に詳しくは、デジタルデータ処理技術の分野に関連する文集合に基づいた知識抽出の方法及びシステムに関する。

知識抽出は、自然言語処理、セマンティックウェブ、機械学習、知識工学、知識発見、知識管理、テキストマイニングなどのような多数の分野に共通して関係する研究対象の１つである。新たに開発された研究対象として、知識抽出は、テキスト情報からの知識の抽出を意味し、即ち、文書に対して実行されるコンテンツ解析及び処理を通じて、項目に基づき文書中に含まれる知識の抽出を意味する。知識抽出は、ある種の知識獲得であって、情報抽出の純化であり深化する。現時点においては、多数の知識リソースは、デジタル刊行物の形式で利用可能であるが、文集合の形式で存在する知識リソースは少ない。文集合は、意味及び構造において密接な関連を有する連続した文によって形成された音声情報の単位であり、知識の有効な表現形態として考えられている。文集合は、書籍中の記事から抽出される（記事は、従来の知識構成形態である）。従来の知識構成及び管理方式が完全に変化しうるように、文集合に基づいた知識抽出を通じて、文書処理の粒度が文集合のレベルにまで引き下げられてもよい。

知識抽出のプロセスにおいて、従来技術においては、個々の文に基づいて知識抽出を実行し、次いで、抽出を通じて取得された個々の文を出力のために組み合わせるという方法が一般に採用されている。この方法は、連続した文の一貫性を無視しており、その結果、抽出された知識情報が論理的な一貫性を欠くことになるので、理解に不便なものとなっている。

抽出された知識情報における論理的な一貫性の欠如及び理解の不便性という従来技術における問題を解決するべく、本発明は、抽出された知識情報の論理的な一貫性を保証することができる知識抽出方法及びシステムを提供する。

上述の問題を解決するべく、本発明においては、以下の技術的解決策が提供される。

本発明の一態様によれば、知識抽出方法が提供され、方法は、初期文集合を取得するステップであって、文集合は、１つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。

任意の選択として、初期文集合を拡張するステップは、重み閾値を設定するステップであって、初期文集合の長さを予想長さと比較するステップの結果に従って重み閾値が初期文集合について設定される、ステップと、文集合を拡張するステップであって、拡張するべき文の重みが重み閾値と比較される、ステップと、比較結果に従って初期文集合を拡張するステップと、を有する。

任意の選択として、初期文集合を取得するステップは、テキストを文に分割するステップと、Ｉ個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Ｉは、１以上の整数である。任意の選択として、Ｉ＝３である。

本発明の別の態様によれば、知識抽出システムが更に提供され、システムは、初期文集合を取得する初期文集合取得モジュールであって、初期文集合は、１つ又は複数の文を含む、モジュールと、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュールと、初期文集合拡張モジュールの拡張の後に最終的に取得された文集合を出力して知識抽出を実現する知識抽出モジュールと、を有する。

任意の選択として、初期文集合拡張モジュールは、初期文集合の長さを予想長さと比較した結果に従って初期文集合用の重み閾値を設定する重み閾値設定ユニットと、初期文集合の拡張において、拡張するべき文の重みを重み閾値と比較し、且つ、比較結果に従って初期文集合を拡張する文集合拡張ユニットと、を有する。

任意の選択として、初期文集合取得モジュールは、テキストを文に分割する文分割ユニットと、Ｉ個の連続した文によって初期文集合を形成する抽出ユニットと、を有し、ここで、Ｉは、１以上の整数である。

任意の選択として、文分割ユニットは、３つの連続した文によって初期文集合を形成する。

本発明の更に別の態様によれば、コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ可読命令が保存された１つ又は複数のコンピュータ可読媒体も提供され、方法は、初期文集合を取得するステップであって、初期文集合は、１つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、有する。

本開示における知識抽出方法及びシステムによれば、知識抽出は、１つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定するステップと、を通じて実現される。文集合は、連続した文によって形成されることから、初期文集合を拡張するステップを通じて取得される最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。

更には、本開示における知識抽出方法及びシステムによれば、最終文集合は、初期文集合の左拡張及び／又は右拡張を通じて取得されており、論理における良好な一貫性が、最終的に取得される抽出された文集合について保証されており、これにより、意外な印象が生じることを抑制しうる。その一方で、初期文集合の左拡張及び／又は右拡張を通じて、抽出するべき文の抜けが防止され、その結果、抽出された知識情報に含まれるコンテンツがより広範なものとなりうる。

本発明の十分な理解のために、添付図面を参照し、説明を付与することとする。

本発明の知識抽出方法のブロックダイアグラムである。本発明の一実施形態による初期文集合に対して左拡張を実行するステップのフローチャートである。本発明の知識抽出システムの構造のブロックダイアグラムである。本発明の好適な実施形態による知識抽出システムの構造のブロックダイアグラムである。

１初期文集合取得モジュール、２初期文集合拡張モジュール、３知識抽出モジュール、４プロパティセットモジュール、１１文分割ユニット、１２抽出ユニット、２１重み閾値設定ユニット、２２文集合拡張ユニット、３１最終文集合重複除外及び出力ユニット、３２最終文集合除去及び出力ユニット、３３最終文集合ソート及び出力ユニット、２１１比較結果判定サブユニット、２１１ａ冗長値設定装置、２１２重み閾値判定サブユニット、２１２ａ閾値調節係数設定装置、２１２ｂプロパティ重み密度取得装置、２１２ｃ重み閾値取得装置、２２１初期文集合選択サブユニット、２２２文重み取得サブユニット、２２２ａ第１重み取得装置、２２２ｂ第２重み取得装置、２２３比較サブユニット、２２４新しい文集合取得サブユニット、２２５ループ拡張サブユニット、２２６閾値設定サブユニット、２２７ａ第１カウントサブユニット、２２７ｂ第２カウントサブユニット、２２８ａ文集合重み取得サブユニット、２２８ｂ文集合長さ取得サブユニット、２２８ｃ重み密度取得サブユニット

実施形態１
本実施形態においては、図１に示すように、知識抽出法について説明するが、方法は、
Ｓ１０２：初期文集合を取得するステップであって、初期文集合は、１つ又は複数の文を含む、ステップと、
Ｓ１０４：初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定する、ステップと、
Ｓ１０６：知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。

本実施形態においては、知識抽出は、１つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定するステップと、を通じて実現されている。文集合は、連続した文によって形成されることから、初期文集合を拡張するステップを通じて取得される最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。

好適な一実施形態として、本実施形態の知識抽出方法においては、初期文集合を取得するステップは、テキストを文に分割するステップと、Ｉ個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Ｉは、１以上の整数である。好適な一実施形態においては、Ｉ＝３である。

本実施形態においては、テキストを文に分割し、３つの連続した文によって初期文集合を形成している。本実施形態においては、Ｉ＝３であるときに、抽出されたそれぞれの最終文集合が少なくとも３つの文を含むことが保証されることにより、相対的に良好な出力結果が得られる。本実施形態においては、初期文集合自体が良好な論理的関係を有するように、３つの連続した文をテキストから引き出して初期文集合を形成しており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有し、意外な印象が生じることを抑制しうる。

本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、重み閾値を設定するステップであって、初期文集合の長さを予想長さと比較した結果に従って、重み閾値が初期文集合について設定される、ステップと、文集合を拡張するステップであって、拡張するべき文の重みが重み閾値と比較される、ステップと、比較結果に従って初期文集合を拡張するステップと、を有する。

別の代替実施形態として、本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、初期文集合の長さと予想長さとを比較するステップと、初期文集合の長さが予想長さに到達していない場合に、初期文集合を拡張するステップと、初期文集合の長さが予想長さに到達しているか又はそれを超過している場合に、拡張を終了するステップと、を有してもよい。

本実施形態においては、初期文集合が拡張される方式とは無関係に、初期文集合の長さと予想長さの間の関係が考慮されており、これにより、最終的に抽出された文集合の長さは、予想長さに極めて近づくことになる。

この実施形態における予想長さは、当業者にとってよく知られている。例えば、特許明細書の要約文の長さに３００ワードを超過しないという制限が存在する。特許出願の要約文を形成するためにテキストから関連する文を抽出するケースにおいては、予想長さは、３００ワードである。予想長さに対する特定の要件が存在しない場合には、予想長さは、実質的な要件に基づいて選択されてもよい。

本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、すべて、文字の数がカウントされる。

実施形態２
実施形態１に基づいて、図２に示す本実施形態の知識抽出方法においては、重み閾値を設定するステップは、比較結果Ｆを判定するステップであって、初期文集合の長さを予想長さと比較した結果Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）を判定するステップと、重み閾値を判定するステップであって、Ｆが１以上であるときの重み閾値、Ｆが１未満であるときの重み閾値であって、一実施形態において、重み閾値を判定するステップで、Ｆが１以上であるときは、重み閾値＝（Ｋ／Ｆ）／Ｇであり、Ｆが１未満であるときは、重み閾値＝（Ｋ／Ｆ）＊Ｇであり、ここで、Ｇは、閾値調節係数であり、且つ、Ｇは、１を上回る値であり、Ｋは、プロパティ重み密度であり、任意の選択として、閾値調節係数Ｇは、５≦Ｇ≦３０である、ステップと、を有する。

本実施形態においては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定され、ここで、比較結果Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）であり、重み閾値は、比較結果Ｆの関数として設定され、Ｆが１以上であるときは、重み閾値＝（Ｋ／Ｆ）／Ｇであり、Ｆが１未満であるときは、重み閾値＝（Ｋ／Ｆ）＊Ｇである。従って、比較結果Ｆが小さいほど、即ち、初期文集合の長さが、予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は、大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際の状況に基づいて動的に調節されうる基準を提供している。

好適な一実施形態として、閾値調節係数Ｇは、５≦Ｇ≦３０の範囲である。知識抽出の最良の効果は、閾値調節係数Ｇがこの範囲に設定されたときに、得られうることが実験によって実証されている。

一代替実施形態として、本実施形態の知識抽出方法は、プロパティの組を判定するステップであって、プロパティの組は、Ｎ個のプロパティパラメータα_iと、プロパティパラメータα_iに対応した重みｖ_iと、を含み、ここで、Ｎは、正の整数であり、ｉは、整数であり、且つ、１≦ｉ≦Ｎである、ステップと、プロパティ重み密度を取得するステップであって、プロパティ重み密度Ｋは、式Ｋ＝Σｖ_i／Ｎを使用して取得される、ステップと、を更に有する。

プロパティパラメータα_iのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータα_iが文中に含まれているかどうかを判定するステップは、文が、プロパティパラメータα_iを表す文字ストリングを含んでいるかどうかを判定するものである。プロパティパラメータα_iに対応した重みｖ_iは、プロパティパラメータα_iの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータα_iが重要であるほど、対応した重みｖ_iには、より大きな値が割り当てられ、且つ、逆もまた同様である。

また、式Ｋ＝Σｖ_i／Ｎに加えて、プロパティ重み密度Ｋは、実質的な要件に従って、ユーザーにより規定されてもよい。

実施形態３
実施形態１及び実施形態２に基づいて、図２に示す本実施形態の知識抽出方法において、文集合拡張のステップは、初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、初期文集合に隣接した左文及び／又は右文中に含まれているプロパティパラメータα_i及び対応した重みｖ_iに従って左文の重み及び右文の重みを取得し、これにより、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rを取得するステップと、初期文集合を左拡張及び／又は右拡張するステップであって、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが、重み閾値以上である場合に、左文及び／又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張が実行されない、ステップと、最終文集合を取得するステップであって、新しい文集合が初期文集合として使用され、且つ、最終文集合を取得するために、初期文集合がもはや拡張されえない時点まで、左文の重み及び右文の重みを取得するステップ及び初期文集合を左拡張及び／又は右拡張するステップが反復される、ステップと、ループ拡張ステップであって、すべての最終文集合を取得するために、それぞれの初期文集合が、初期文集合を選択するステップから最終文集合を取得するステップまでを通じて拡張される、ステップと、を更に有する。

本実施形態においては、初期文集合の拡張は、左拡張、右拡張、又は左−右拡張を有しており、この場合に、初期文集合の左拡張のケースにおいては、初期文集合に隣接した左文の重みＷ_Lを取得することのみが必要とされ、初期文集合に隣接した左文の重みＷ_Lが重み閾値以上である場合に、左文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の右拡張のケースにおいては、初期文集合に隣接した右文の重みＷ_Rを取得することのみが必要とされ、初期文集合に隣接した右文の重みＷ_Rが重み閾値以上である場合に、右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の左及び右拡張のケースにおいては、初期文集合と隣接した左文の重みＷ_L及び右文の重みＷ_Rを取得する必要があり、初期文集合に隣接した左文の重みＷ_Lが重み閾値を上回っている場合には、左文が初期文集合内に拡張され、初期文集合に隣接した右文の重みＷ_Rが重み閾値を上回っている場合には、右文が初期文集合内に拡張され、初期文集合の左拡張及び右拡張を通じて新しい文集合が取得され、初期文集合に隣接した左文の重みＷ_L及び初期文集合に隣接した右文の重みＷ_Rの両方が閾値未満である場合に、初期文集合に対して拡張は実行されない。ここで、左及び右拡張は、左拡張の後の右拡張、又は右拡張の後の左拡張、或いは、交互に左及び右拡張を有してもよい。

本実施形態の知識抽出方法においては、左文の重み及び右文の重みを取得するステップにおいては、重みＷ_Lは、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iの合計であり、重みＷ_Rは、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iの合計である。

左及び右文に対して実行された上述の判定の後に、例えば、左文は、プロパティパラメータα₁及びα₂を含み、左文の重みは、Ｗ_L＝ｖ₁＋ｖ₂であることが判定され、右文は、プロパティパラメータα₃及びα₄を含み、右文の重みは、Ｗ_R＝ｖ₃＋ｖ₄であると判定される。ここで、同一のプロパティα_iが複数回にわたって発生したときに、対応した重みｖ_iは、一回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティα_iは、プロパティα_iが発生した回数だけ、累算されてもよい。

一代替解決策として、文重みを算出する代替方法は、Σβ_iｖ_iであり、ここで、β_iｖ_iは、文中において発生したプロパティα_iによって寄与される値であり、β_iは、プロパティα_iのフィールド特性重みである。プロパティα_iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。β_iが１であるときには、本実施形態において採用されている方式となる。この実施形態は、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rを取得する方法を提供するのみである。同一の方法が、すべての文重み値の算出の間中に使用されている限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。

本実施形態の知識抽出方法において、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値は初期文集合について設定される。比較結果Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）であり、且つ、重み閾値は、比較結果Ｆの関数として設定される。比較結果Ｆが小さいほど、即ち、初期文集合の長さが予想長さにより極めて近づくほど、或いは、初期文集合の長さが予想な長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが閾値と比較され、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが、重み閾値以上である場合にのみ、左文及び／又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、これにより、左文の重みＷ_Lと右文の重みＷ_Rは、重み閾値よりも大きくなる傾向になり、これにより、左文及び／又は右文は、初期文集合内に拡張されやすくなり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び／又は右文は、多くのプロパティパラメータα_iを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。

本実施形態の知識抽出方法において、比較結果Ｆを判定するステップで、初期文集合の左拡張のケースでは、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、初期文集合の右拡張のケースでは、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。

実際的な用途において、左拡張では、冗長値は、初期文集合に隣接した左文の長さのｍ倍の値として選択されてもよく、右拡張では、冗長値は、初期文集合に隣接した右文の長さのｍ倍の値として選択されてもよく、好ましくは、ｍは、１未満の値である。ｍが０．５であるときには、本実施形態において提供される方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくことになろう。

実施形態４
実施形態１〜実施形態３のいずれかに基づいて、図２に示すように、本実施形態の知識抽出方法においては、文集合拡張のステップは、左及び／又は右拡張用の文数閾値を設定するステップであって、左拡張文数閾値は、Ｌであり、且つ、右拡張文数閾値は、Ｒである、ステップ、を更に有する。

初期文集合を左拡張及び／又は右拡張して最終文集合を取得するステップにおいては、初期文集合の左拡張用の文の数が左拡張文数閾値Ｌを上回っているときには、初期文集合に対してもはや左拡張は実行されず、初期文集合の右拡張用の文の数が、右拡張文数閾値Ｒを上回っている場合には、初期文集合に対してもはや右拡張は実行されない。

図２は、本発明の一実施形態による初期文集合を左拡張するステップのフローチャートに過ぎない。但し、本発明による初期文集合を左拡張するいくつかのステップの実行シーケンスは、図２に示すものに限定されない。プロパティの組を判定するステップ、プロパティ重み密度を判定するステップ、閾値調節係数Ｇを設定するステップ、初期文集合の長さと予想長さの間における比較結果を判定するステップなど、いくつかのパラメータを取得及び設定するステップは、ループプロセスの前に実行されてもよく、或いは、ループプロセスにおける初期文集合の拡張の前に実行されてもよい。

初期文集合の左及び／又は右拡張用の文の数を制限するステップを通じて、初期文集合の左及び／又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出された文集合のチェック及び理解を容易なものにしてもよい。

好適な一実施形態として、本実施形態の知識抽出方法において左及び／又は右拡張用の文数閾値を設定するステップにおいて、初期文集合を左及び右拡張するケースでは、左拡張文数閾値Ｌは、６に設定され、且つ、右拡張文数閾値Ｒは、６に設定され、初期文集合の左拡張のみを実行するケースでは、左拡張文数閾値は、１２に設定され、且つ、右拡張文数閾値Ｒは、０に設定され、初期文集合の右拡張のみを実行するケースでは、左拡張文数閾値Ｌは、０に設定され、且つ、右拡張文数閾値Ｒは、１２に設定される。

左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文一貫性のみならず、最終文集合の長さ制御の観点において、最良の効果が取得されうることが実験によって実証されている。

実施形態５
実施形態１〜実施形態４のいずれかに基づいて、本実施形態の知識抽出方法は、最終文集合重みを取得するステップであって、最終文集合重みは、最終文集合中に含まれているプロパティパラメータα_i及び対応した重みＶ_iに従って取得され、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα_iの対応した重みＶ_iの合計である、ステップと、最終文集合重み密度を取得するステップであって、最終文集合重み密度Ｋ’＝最終文集合重み／最終文集合重みに応じた最終文集合の長さである、ステップと、を更に有する。

なお、最終文集合重み密度Ｋ’の計算においては、最終文集合重み密度Ｋ’の計算において、同一の基準が、それぞれの最終文集合に採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意する。

上述の判定から、例えば、最終文集合は、プロパティパラメータα₁、α₃、α₅を含み、重みＶ₁、Ｖ₃、Ｖ₅を合算するステップを通じて、重み＝Ｖ₁＋Ｖ₃＋Ｖ₅が最終文集合について取得され、最終文集合の長さが３００文字である場合には、最終文集合重み密度Ｋ’＝（Ｖ₁＋Ｖ₃＋Ｖ₅）／３００であると判定される。最終文集合中の１つの文又は様々な文が、複数のプロパティパラメータα_iを含む場合には、その対応した重みは、一度だけ又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータα_iは、その対応した重みＶ_iが発生する回数だけ加算されうる。

或いは、この代わりに文集合重み計算の代替方式は、Σβ_iｖ_iであり、ここで、β_iｖ_iは、文集合中の文中に存在するプロパティα_iによって寄与される値であり、β_iは、プロパティα_iのフィールド特性重みである。プロパティα_iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβ_iが１であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文の重みを算出するべく使用される限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。

本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を重複除外及び出力するステップであって、最終文集合が、重複除外され、且つ、次いで、出力される、ステップを更に有する。

本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を除去及び出力するステップであって、最小長さが最終文集合について設定され、且つ、最小長さ未満の長さを有する最終文集合が除去される、ステップを更に有する。

本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合をソート及び出力するステップであって、最終文集合が、それぞれの最終文集合の重み密度Ｋ’に従ってソートされ、且つ、次いで、出力される、ステップを更に有する。

本実施形態の知識抽出方法によれば、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツを読み取るステップに起因した時間の浪費が防止されうるように、重複した知識情報の出力が回避され、最終文集合用の最小長さを設定するステップ及び最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれることにより、ユーザーによる問合せの要件が充足され、それぞれの最終文集合の重み密度Ｋ’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度Ｋ’により、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せの時間が低減されうるように、望ましい知識情報を取得するべく最初の少ない数の最終文集合を読み取ることのみが必要とされる。

知識抽出の具体例が、以下のテキストにとともに、本実施形態において更に提供される。

プロパティの組Ｔ：

上記のプロパティの組内には、合計で６８個のプロパティが存在している。これらのプロパティに対応した重みの合計は、１であり、従って、プロパティ重み密度Ｋ＝１／６８＝０．１４７０５８８である。

上記のテキストは、ピリオド、疑問符、及び感嘆符などの完全な文を表す句読法に基づいてセグメント化され、且つ、セグメント化の後に、合計で４０個の文が得られる。以下の説明をわかりやすくするべく、それぞれの文ごとに、ラベルが提供される。本実施形態において、これら４０個の文は、Ｊ１〜Ｊ４０としてラベル付与される。これらのラベルは、この技術的解決策の理解を容易にする目的で提供される。実際的なシステムの動作において、これらのラベルは、テキスト中に実際には存在しない。

初期文集合は、任意の３つの連続した文によって形成され、且つ、このような方式で取得された初期文集合が、以下の表に示される。

上述の初期文集合が取得された後に、拡張が、それぞれの初期文集合について実行される。以下に、知識抽出のプロセスにおいて文集合を拡張する方法を説明するべく、３つの文Ｊ５〜Ｊ７という初期文集合を例として取り上げる。

この文集合拡張のプロセスにおいて、予想文集合長さは、３００に設定される。文集合の左拡張では、冗長値は、左隣接文の半分に設定され、且つ、Ｌ＝６であり、文集合の右拡張では、冗長値は、右隣接文の半分に設定され、且つ、Ｒ＝６である。文集合の左拡張及び右拡張の両方において、右拡張の前の左拡張について説明を付与することとする。或いは、この代わりに、左拡張の前の右拡張も可能であり、或いは、左拡張及び右拡張は、交互に実行されてもよい。

文集合のパラメータ及び文集合に隣接した左文が以下のように取得される。

文集合中に含まれる文字（空白を除外する）をカウントされたＪ５〜Ｊ７の文集合の長さは、１５５であり、この基準は、文字をカウントするべく、本実施形態の全体を通じて使用される。文集合に隣接した左文は、Ｊ４であり、且つ、Ｊ４の長さは、２３であり、プロパティ「秦国」及び

を含む。これにより、Ｊ４の重みは、「秦国」に対応した重み０．０４５０２１４３８７８０３７１６０５と

に対応した重み０．１１５０５４７８７９９４２８３との合計であり、これは、０．１６００７６２２６７７４６５４６０５である。

重み閾値は、以下のように取得される。閾値調節係数Ｇを２０に設定し、初期文集合の長さ及び予想長さに従って、Ｆ＝３００／（１５５＋２３／２）＝１．８０１が取得され、Ｆ＞１であることから、重み閾値は、（Ｋ／Ｆ）／Ｇ＝０．００４０６９１４２として選択され、Ｊ４の重みは、重み閾値を上回っており、且つ、左拡張された文の数は、６未満であることから、Ｊ４を文集合内に拡張して新しい文集合Ｊ４〜Ｊ７を形成してもよい。

新しい文集合Ｊ４〜Ｊ７を初期文集合として取得しつつ、左拡張が継続する。新しい文集合の長さは、１５５＋２３＝１７８であり、初期文集合に隣接した左文は、Ｊ３であり、その長さは、４１であり、これは、プロパティ「割据」及び

を含む。これにより、初期文集合の重みは、これら２つのプロパティに対応した重みの合計０．０１６４３６３９８２８４８９７５７＋０．１１５０５４７８７９９４２８３＝０．１３１４９１１８６２７９１８０５７であり、Ｆ＝３００／（１７８＋４１／２）＝１．５１１３３５０１である。

Ｆ＞１であることから、重み閾値は、（Ｋ／Ｆ）／Ｇ＝０．００４８７７４５０２として選択される。

Ｊ３の重みが重み閾値を上回っており、且つ、左拡張された文の数が６未満であることから、Ｊ３を文集合内に拡張して新しい文集合Ｊ３〜Ｊ７を形成してもよい。

同様に、上述のステップを通じて、判定が、同様のステップにおいて、Ｊ２及びＪ１に対して順番に実行されるが、これについては、詳細説明を省略することとする。これらの判定の後に、Ｊ２及びＪ１の両方が、文集合内に拡張される基準を充足していると判定される。但し、Ｊ１は、左側の最初の文であることから、文集合の左拡張は、Ｊ１が左拡張されたときに、自動的に終了し、且つ、左拡張の後に、新しい初期文集合Ｊ１〜Ｊ７が取得される。

右拡張が初期文集合Ｊ１〜Ｊ７に対して実行される。初期文集合の長さは、２６７であり、且つ、初期文集合に隣接した右文は、Ｊ８である。Ｊ８の長さは、６４であり、且つ、これは、プロパティ「秦王」、

及び「皇帝」を含み、ここで、「皇帝」は、２回出現しており、これにより、Ｊ８の重みは、以下のように、「秦王」の重み、

の重み、及び「皇帝」の重みの合計を２によって乗算したもの０．０２７６３２２０５８１２２９１５０＋０．１１５０５４７８７９９４２８３００＋０．０６９５５６９３１８７２３２０１０＊２＝０．２８１８００８５７５５１２１４７である。

Ｆ＝３００／（２６７＋６４／２）＝１．００３３４４４８１６である。

Ｆ＞１であることから、重み閾値（Ｋ／Ｆ）／Ｇ＝０．００７３２８４３０２が選択される。

Ｊ８の重みは、重み閾値を上回っており、且つ、右拡張された文の数は、６未満であることから、Ｊ８を初期文集合内に拡張して新しい文集合Ｊ１〜Ｊ８を形成する。

文集合Ｊ１〜Ｊ８を新しい初期文集合として取得しつつ、右拡張が継続する。

初期文集合の長さは、３３１であり、且つ、初期文集合に隣接した右文は、Ｊ９である。Ｊ９の長さは、３８であり、且つ、これは、プロパティ

及び

を含む。これにより、その重みは、０．１１５０５４７８７９９４２８３００＋０．０２０９６２３６３０３００１４２０＝０．１３６０１７１５１０２４２９７２として算出される。

Ｆ＝３００／（３２９＋３８／２）＝０．８５７１４２８５７である。

Ｆ＜１であり、重み閾値（Ｋ／Ｆ）＊Ｇ＝３．４３１３７２が選択される。

右拡張された文の数は、６未満であるが、Ｊ９の重みが重み閾値未満であることから、Ｊ９は、文集合内に拡張されることができず、且つ、文集合拡張は、終了する。従って、文集合の長さが予想長さを上回っている場合には、重み閾値は、非常に大きくなり、その結果、中程度の重みを有する文の文集合内への拡張が困難になる。

類似の方法において、拡張が、その他の初期文集合に基づいて実行される。当業者には、全体文書中のすべての初期文集合が、上述のプロセスに従って拡張されてもよく、これに関する本明細書における更なる説明は、省略することとする。

すべての最終文集合が取得された後に、重複する文集合が除去され、且つ、文集合は、その重み密度に従ってソートされる。重み密度Ｋ’＝最終文集合の重み／最終文集合の長さであり、最終文集合の長さは、最終文集合中に含まれている文字の数であり、最終文集合の重みは、最終文集合中の様々な文の重みの合計である。ここで、それぞれの文の重みは、上述の方法によって、即ち、文内に出現したすべてのプロパティの重みを合算するステップを通じて、算出される。

上述の入力テキストとの関係において、２０個の最終文集合が取得され、これらは、重み密度によってソートされ、且つ、Ｊ１−Ｊ８、Ｊ３−Ｊ９、Ｊ６−Ｊ１０、Ｊ７−Ｊ１１、Ｊ２−Ｊ８、Ｊ７−Ｊ１２、Ｊ８−Ｊ１３、Ｊ２２−Ｊ２６、Ｊ２６−Ｊ３０、Ｊ１５−Ｊ１９、Ｊ１４−Ｊ１８、Ｊ２２−Ｊ２７、Ｊ１５−Ｊ２０、Ｊ２９−Ｊ３４、Ｊ３４−Ｊ４０、Ｊ１３−Ｊ１７、Ｊ３３−Ｊ４０、Ｊ１６−Ｊ２２、Ｊ１２−Ｊ１７、Ｊ１７−Ｊ２２として出力される。

実施形態６
本実施形態は、図３に示す知識抽出システムを提供し、システムは、初期文集合を取得する初期文集合取得モジュール１であって、文集合は、１つ又は複数の文を含む、モジュールと、初期文集合取得モジュール１によって取得された初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュール２と、初期文集合拡張モジュール２によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール３と、を含む。

この実施形態においては、知識抽出は、初期文集合取得モジュール１によって１つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合拡張モジュール２によって初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定するステップと、を通じて実現されており、文集合は、連続した文によって形成されていることから、初期文集合を拡張するステップを通じて取得された最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。

好適な一実施形態として、本実施形態の知識抽出方法において、初期文集合を取得するステップは、テキストを文に分割するステップと、Ｉ個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Ｉは、１以上の整数である。好適な一実施形態として、Ｉ＝３である。

本実施形態において、図４に示す本実施形態の知識抽出システムで、初期文集合取得モジュール１は、文書を文に分割する文分割ユニット１１と、文の全体を通じてＩ個の連続した文によって初期文集合を構築する抽出ユニット１２と、を有し、ここで、Ｉは、１以上の整数である。好適な一実施形態として、抽出ユニット１２は、文書の全体を通じて３つの連続した文によって初期文集合を構築している。

本実施形態においては、テキスト文書は、３つの連続した文の初期文集合を形成するべく、文分割ユニット１１によって文に分割されている。本実施形態においては、相対的に良好な出力結果は、Ｉ＝３であるときに、抽出されたそれぞれの最終文集合が少なくとも３つの文を含むことが保証されることにより、得られる。本実施形態においては、３つの連続した文は、初期文集合自体が良好な論理的関係を有するように初期文集合を形成するべく、テキストから引き出されており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有しており、意外な印象が生じることを抑制しうる。

本実施形態の知識抽出システムにおいては、初期文集合拡張モジュール２は、予想長さとの間における初期文集合の長さの比較の結果に従って、初期文集合用の重み閾値を設定する重み閾値設定ユニット２１と、初期文集合の拡張において、拡張するべき文の重みを重み閾値と比較すると共に比較結果に従って初期文集合を拡張する文集合拡張ユニット２２と、を有する。

本実施形態においては、初期文集合の長さと予想長さの間における関係が考慮されており、その結果、抽出された最終文集合の長さは、予想長さに極めて近づくことになる。

本実施形態における予想長さは、当業者には馴染み深いものである。例えば、３００ワードを超過しないという特許明細書の要約文の長さに対する制限が存在している。特許出願の要約文を形成するべくテキストから関連する文を抽出するケースにおいては、予想長さは、３００ワードである。予想長さに関する特定の要件が存在していない場合には、予想長さは、実際的な要件に基づいて選択されうる。

本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、いずれも、文字の数を単位としてカウントされる。

実施形態７
実施形態６に基づいて、図４に示す本実施形態の知識抽出システムにおいては、重み閾値設定ユニット２１は、予想長さとの間における初期文集合の長さの比較の結果Ｆを判定する比較結果判定サブユニット２１１であって、Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）である、サブユニットと、重み閾値を判定する重み閾値判定サブユニット２１２であって、Ｆが１以上であるときの重み閾値は、Ｆが１未満であるときの重み閾値未満である、サブユニットと、を有する。

本実施形態の知識抽出システムにおいては、重み閾値判定サブユニット２１２は、閾値調節係数Ｇを設定及び出力する閾値調節係数設定装置２１２ａであって、Ｇは、１を上回る値である、装置と、プロパティ重み密度Ｋを取得及び出力するプロパティ重み密度取得装置２１２ｂと、閾値調節係数設定装置２１２ａ、プロパティ重み密度取得装置２１２ｂ、及び比較結果判定ユニット２１１の出力に従って重み閾値を取得及び出力する重み閾値取得装置２１２ｃと、を有し、Ｆが１以上であるときには、重み閾値＝（Ｋ／Ｆ）／Ｇであり、Ｆが１未満であるときには、重み閾値＝（Ｋ／Ｆ）＊Ｇであり、ここで、Ｇは、閾値調節係数であり、Ｇは、１を上回る値であり、Ｋは、プロパティ重み密度である。

本実施形態においては、重み閾値設定ユニット２１は、初期文集合の長さと予想長さの間の比較の結果に従って重み閾値を設定し、比較結果判定サブユニット２１１は、比較結果Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）を判定し、重み閾値取得装置２１２ｃは、Ｆが１以上であるときには、重み閾値＝（Ｋ／Ｆ）／Ｇを判定し、且つ、Ｆが１未満であるときには、重み閾値＝（Ｋ／Ｆ）＊Ｇを判定する。従って、比較結果Ｆが小さいほど、即ち、初期文集合の長さが予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過しているほど、重み閾値は大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間の比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際的な状況に基づいて動的に調節されうる基準を提供している。

好適な一実施形態として、本実施形態の知識抽出システムにおいて、閾値調節係数設定装置２１２ａは、５≦Ｇ≦３０という範囲において閾値調節係数Ｇを設定している。閾値調節係数Ｇが、この範囲に設定されたときに、知識抽出の最良の効果が得られうることが実験によって実証されている。

一代替実施形態として、本実施形態の知識抽出システムは、Ｎ個のプロパティパラメータα_i及びプロパティパラメータα_iに対応した重みｖ_iを含むプロパティの組を保存するプロパティセットモジュール４であって、Ｎは、正の整数であり、ｉは、整数であり、且つ、１≦ｉ≦Ｎである、モジュール、を更に有し、プロパティ重み密度取得ユニット２１２ｂは、式Ｋ＝Σｖ_i／Ｎを使用してプロパティ重み密度Ｋを取得する。

プロパティパラメータα_iのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータα_iが文中に含まれているかどうかを判定するステップは、文がプロパティパラメータα_iを表す文字ストリングを含んでいるかどうかを判定するというものである。プロパティパラメータα_iに対応した重みｖ_iは、プロパティパラメータα_iの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータα_iが重要であるほど、対応した重みｖ_iには、より大きな値が割り当てられ、且つ、逆も又同様である。

また、式Ｋ＝Σｖ_i／Ｎに加えて、プロパティ重み密度Ｋは、実際的な要件に従って、ユーザーにより規定されてもよい。

実施形態８
実施形態６又は実施形態７に基づいて、図４に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット２２は、初期文集合取得モジュール１から拡張用の初期文集合を選択する初期文集合選択サブユニット２２１と、初期文集合に隣接した左文及び／又は右文中に含まれているプロパティパラメータα_i及び対応した重みｖ_iに従って初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rを取得する文重み取得サブユニット２２２と、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rを重み閾値と比較する比較サブユニット２２３と、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び／又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット２２２に出力する新しい文集合取得サブユニット２２４であって、最終文集合は、知識抽出モジュール３に出力される、サブユニットと、新しい文集合取得サブユニット２２４が最終文集合を取得した後に、初期文集合取得モジュール１から拡張用の別の初期文集合を選択するように、初期文集合選択サブユニット２２１を制御するループ拡張サブユニット２２５と、を更に有する。

本実施形態において、初期文集合の左拡張のみのケースにおいては、初期文集合に隣接した左文の重みＷ_Lが重み閾値以上である場合に、新しい文集合取得サブユニット２２４は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文を初期文集合に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット２２２に出力し、最終文集合は、知識抽出モジュール３に出力される。

初期文集合の右拡張のみのケースにおいては、初期文集合に隣接した右文の重みＷ_Rが重み閾値以上である場合に、新しい文集合取得サブユニット２２４は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット２２２に出力し、最終文集合は、知識抽出モジュール３に出力される。

初期文集合の左及び右拡張の両方のケースにおいては、初期文集合に隣接した左文の重みＷ_L及び初期文集合に隣接した右文の重みＷ_Rが重み閾値を上回っている場合に、新しい文集合取得サブユニット２２４は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左及び右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット２２２に出力し、最終文集合は、知識抽出モジュール３に出力される。

本実施形態の知識抽出システムにおいて、文重み取得サブユニット２２２は、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iを合算して左文の重みＷ_Lを取得する第１重み取得装置２２２ａと、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iを合算して右文の重みＷ_Rを取得する第２重み取得装置２２２ｂと、を有し、上述の判定は、左及び右文に対して実行され、例えば、左文がプロパティパラメータα₁及びα₂を含むと判定された場合には、左文の重みは、Ｗ_L＝ｖ₁＋ｖ₂であり、右文がプロパティパラメータα₃及びα₄を含むと判定された場合に、右文の重みは、Ｗ_R＝ｖ₃＋ｖ₄である。ここで、同一のプロパティα_iが複数回にわたって発生したときには、対応した重みｖ_iは、１回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティα_iは、プロパティα_iが発生した回数にわたって累算されうる。

一代替解決策として、文重みを算出する一代替方法は、Σβ_iｖ_iであり、ここで、β_iｖ_iは、文中において発生したプロパティα_iによって寄与される値であり、β_iは、プロパティα_iのフィールド特性重みである。プロパティα_iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。β_iが１であるときには、本実施形態において採用されている方式となる。本実施形態は、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rを取得する方法を提供するのみである。同一の方法が、すべての文重み値の計算の間中に使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。

本実施形態の知識抽出システムにおいては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定される。比較結果Ｆ＝予想長さ／（初期文集合の長さ＋冗長値）であり、且つ、重み閾値は、比較結果Ｆの関数として設定される。比較結果Ｆが小さいほど、即ち、初期文集合の長さが予想長さに近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みＷ_L及び右文の重みＷ_Rは、重み閾値と比較され、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが重み閾値以上である場合にのみ、左文及び／又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、その結果、左文の重みＷ_L及び右文の重みＷ_Rは、重み閾値よりも大きくなる傾向を有し、その結果、左文及び／又は右文は、初期文集合内に拡張される傾向を有することになり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び／又は右文は、多くのプロパティパラメータα_iを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。

本実施形態の知識抽出システムにおいて、比較結果判定ユニット２１１は、冗長値を設定する冗長値設定装置２２１ａを有しており、ここで、初期文集合の左拡張のケースにおいては、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、且つ、初期文集合の右拡張のケースにおいては、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。

実際的な用途において、左拡張においては、冗長値は、初期文集合に隣接した左文の長さのｍ倍の値として選択されてもよく、右拡張においては、冗長値は、初期文集合に隣接した右文の長さのｍ倍の値として選択されてもよく、好ましくは、ｍは、１未満の値である。ｍが０．５であるときには、本実施形態において提供されている方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくであろう。

実施形態９
実施形態６〜実施形態８のいずれかに基づいて、図４に示すように、本実施形態の知識抽出システムにおいては、文集合拡張ユニット２２は、初期文集合用の左拡張文数閾値Ｌ及び初期文集合用の右拡張文数閾値Ｒを設定する閾値設定サブユニット２２６と、初期文集合内に左拡張された文の数をカウント及び出力する第１カウントサブユニット２２７ａと、初期文集合内に右拡張された文の数をカウント及び出力する第２カウントサブユニット２２７ｂと、を更に有し、比較サブユニット２２３は、初期文集合内に左拡張された文の数を左拡張文数閾値Ｌと比較すると共に初期文集合内に右拡張された文の数を右拡張文数閾値Ｒと比較するべく、更に使用され、新しい文集合取得サブユニット２２４は、初期文集合内に左拡張された文の数がＬ以下であると共に／又は、初期文集合内に右拡張された文の数がＲ以下である場合に、且つ、初期文集合に隣接した左文の重みＷ_L及び／又は右文の重みＷ_Rが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び／又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット２２２に出力するべく、更に使用され、最終文集合は、知識抽出モジュール３に出力される。

初期文集合の左及び／又は右拡張の文の数の制限を通じて、初期文集合の左及び／又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出される文集合のチェック及び理解が容易になる。

好適な一実施形態として、本実施形態の知識抽出システムにおいて、初期文集合の左及び右拡張の両方を実行するケースにおいては、左拡張文数閾値Ｌは、６に設定され、且つ、右拡張文数閾値Ｒは、６に設定され、初期文集合の左拡張のみを実行するケースにおいては、左拡張文数閾値Ｌは、１２に設定され、且つ、右拡張文数閾値Ｒは、０に設定され、初期文集合の右拡張のみを実行するケースにおいては、左拡張文数閾値Ｌは、０に設定され、且つ、右拡張文数閾値Ｒは、１２に設定される。

実験によって実証されているように、左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文の一貫性のみならず、最終文集合の長さの制御の観点においても、最良の効果が得られうる。

実施形態１０
実施形態６〜実施形態９のいずれかに基づいて、図４に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット２２は、最終文集合中に含まれているプロパティパラメータα_i及び対応した重みＶ_iに従って最終文集合重みを取得する文集合重み取得サブユニット２２８ａであって、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα_iの対応した重みＶ_iの合計である、サブユニットと、最終文集合の長さを取得する文集合長さ取得サブユニット２２８ｂと、最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット２２８ａであって、最終文集合重み密度Ｋ’＝最終文集合重み／最終文集合の長さである、サブユニットと、を更に有する。

なお、最終文集合重み密度Ｋ’の計算においては、同一の基準が、最終文集合重み密度Ｋ’の計算においてそれぞれの最終文集合について採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意されたい。

上述の判定から、例えば、最終文集合は、プロパティパラメータα₁、α₃、α₅を含み、重みＶ₁、Ｖ₃、Ｖ₅を合算するステップを通じて、重み＝Ｖ₁＋Ｖ₃＋Ｖ₅が最終文集合について取得され、最終文集合の長さが３００文字である場合に、最終文集合重み密度Ｋ’＝（Ｖ₁＋Ｖ₃＋Ｖ₅）／３００であると判定される。最終文集合中の１つの文又は様々な文が複数のプロパティパラメータα_iを含む場合には、その対応した重みは、一回又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータα_iは、その対応した重みＶ_iが発生する回数にわたって加算されうる。

或いは、この代わりに、文集合重み計算の一代替方式は、Σβ_iｖ_iであり、ここで、β_iｖ_iは、文集合中の文中に存在しているプロパティα_iによって寄与される値であり、β_iは、プロパティα_iのフィールド特性重みである。プロパティα_iのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβ_iが１であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文用の重みを算出するべく使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。

本実施形態の知識抽出システムにおいて、知識抽出モジュール３は、最終文集合を重複除外し、且つ、次いで、最終文集合を出力する最終文集合重複除外及び出力ユニット３１、を有する。

本実施形態の知識抽出システムにおいて、知識抽出モジュール３は、最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去した後に、最終文集合を出力する最終文集合除去及び出力ユニット３２、を更に有する。

本実施形態の知識抽出システムにおいて、知識抽出モジュール３は、最終文集合をソート及び出力する最終文集合ソート及び出力ユニット３３であって、最終文集合が、それぞれの最終文集合の重み密度Ｋ’に従ってソートされ、且つ、次いで、出力される、ユニット、を更に有する。

本実施形態の知識抽出システムにおいては、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツの読取りに起因した時間の浪費が防止されうるように、最終文集合重複除外及び出力ユニット３１により、取得された最終文集合のすべてを重複除外することにより、重複した知識情報の出力が回避されており、最終文集合除去及び出力ユニット３２によって最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれ、これにより、ユーザーによる問合せの要件が充足され、最終文集合ソート及び出力ユニット３３により、それぞれの最終文集合の重み密度Ｋ’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度Ｋに従って、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せのための時間が低減されうるように、望ましい知識情報を取得するべく、最初の少ない数の最終文集合を読み取ることのみが必要とされる。

また、本開示は、コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された１つ又は複数のコンピュータ可読媒体を提供し、方法は、初期文集合を取得するステップであって、文集合は、１つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。

当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムのプロダクトとして提供することができることを理解すべきである。従って、本出願は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態、又はソフトウェアとハードウェアを組み合わせた実施形態の形態を使用することができる。更には、本出願は、コンピュータによって実行可能なプログラミングコードを有する１つ又は複数の記憶媒体（限定を伴うことなしに、ディスクメモリ、ＣＤ−ＲＯＭ、光メモリなどを含む）上において実行されるコンピュータプログラムプロダクトの形態を使用することもできる。

本出願は、本発明の実施形態による方法、機器（システム）、及びコンピュータプログラムプロダクトのフローチャート及び／又はブロックダイアグラムを参照して記述されている。フローチャート及び／又はブロックダイアグラム中のそれぞれのフロー及び／又はブロックのみならず、フローチャート及び／又はブロックダイアグラム中のフロー及び／又はブロックの組合せは、コンピュータプログラム命令を通じて実現可能であることを理解されたい。このようなコンピュータプログラム命令は、フローチャート中の１つ又は複数のフロー及び／又はブロックダイアグラムの１つのブロック又は複数のブロック内において規定されている機能を実現する装置が、コンピュータ又はプログラム可能なデータ処理機器の任意のその他のプロセッサによって実行される命令によって生成されるように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、組込み型プロセッサ、又はプログラム可能なデータ処理機器の任意のその他のプロセッサに提供されることができる。

また、このようなコンピュータプログラム命令は、コンピュータの可読メモリ内において保存されたコマンドがコマンド装置のプロダクトを生成するように、特定のスタイルにおける動作にコンピュータ又はその他のプログラム可能なデータ処理機器を導きうるコンピュータの可読メモリ内に保存可能であり、このような命令装置は、フローチャート中の１つ又は複数のフロー及び／又はブロックダイアグラムの１つ又は複数のブロック内に規定されている機能を実現することができる。

また、このようなコンピュータプログラム命令は、コンピュータ又はその他のプログラム機器によって実行される命令が、フローチャート中の１つ又は複数のフロー及び／又はブロックダイアグラムの１つのブロック又は複数のブロック内において規定されている機能を実現するように、コンピュータ又はその他のプログラム可能な機器上において一連の動作ステップを実行してコンピュータによって実現されるプロセスを生成するように、コンピュータ又はその他のプログラム可能なデータ処理機器上に読み込むこともできる。

以上、本出願の好適な実施形態について説明したが、当業者であれば、基本的な創造的概念を理解すれば、これらの実施形態の更なる変更及び変形を実施することができる。従って、添付の請求項は、好適な実施形態と、本出願の範囲内のすべての変更及び変形と、を包含するべく解釈されることを意図している。

Claims

コンピュータによって実行される知識抽出方法であって、前記コンピュータは、
初期文集合を取得するステップであって、前記初期文集合は、１つ又は複数の文を含む、ステップと、
前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する、ステップと、
知識を抽出するステップであって、拡張の後に最終的に取得された前記文集合を出力して知識抽出を実現する、ステップと、
を実行し、
前記初期文集合を拡張するステップは、
比較結果Ｆを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Ｆをする判定するステップであって、Ｆ＝前記予想長さ／（前記初期文集合の前記長さ＋冗長値）である、ステップを有する、
ことを特徴とする知識抽出方法。
請求項１に記載の知識抽出方法であって、前記初期文集合を拡張するステップは、
重み閾値を設定するステップであって、前記重み閾値は、前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って、前記初期文集合について設定される、ステップと、
前記文集合を拡張するステップであって、前記処理文集合を拡張している間に、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張するステップと、
を有し、
且つ／又は、
前記初期文集合を取得するステップは、
テキストを文に分割するステップと、
Ｉ個の連続した文によって初期文集合を形成するステップであって、Ｉは、１以上の整数である、ステップ、
を有し、
且つ／又は、
前記知識を抽出するステップは、
前記最終文集合を重複除外及び出力するステップであって、前記最終文集合は、重複除外され、且つ、次いで、出力される、ステップ、
及び／又は、
前記最終文集合を除去及び出力するステップであって、最小長さが前記最終文集合用に設定され、且つ、前記最小長さ未満の長さを有する前記最終文集合が除去される、ステップ、
及び／又は
前記最終文集合をソート及び出力するステップであって、前記最終文集合は、前記最終文集合のそれぞれの重み密度Ｋ’に従ってソートされ、且つ、次いで、出力される、ステップ、
を更に有する、
ことを特徴とする知識抽出方法。
請求項２に記載の知識抽出方法であって、前記重み閾値を設定するステップは、
重み閾値を判定するステップであって、Ｆが１以上であるときの前記重み閾値と、Ｆが１未満であるときの前記重み閾値と、である、ステップ、
を有し、
且つ／又は、
前記文集合を拡張するステップは、
初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、
左文の重み及び／又は右文の重みを取得するステップであって、前記初期文集合に隣接した前記左文の重みＷ_L及び／又は前記右文の重みＷ_Rは、前記初期文集合に隣接した左文及び／又は右文中に含まれているプロパティパラメータα_i及び対応した重みｖ_iに従って取得される、ステップと、
前記初期文集合を左拡張及び／又は右拡張するステップであって、前記初期文集合に隣接した前記左文の前記重みＷ_L及び／又は前記右文の前記重みＷ_Rが前記重み閾値以上である場合に、前記左文及び／又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、さもなければ、前記初期文集合に対して拡張は実行されない、ステップと、
最終文集合を取得するステップであって、前記新しい文集合が初期文集合として使用され、且つ、前記最終文集合を取得するように、前記初期文集合がもはや拡張されえない時点まで、前記左文の重み及び／又は右文の重みを取得するステップ及び前記初期文集合を左拡張及び／又は右拡張するステップが反復される、ステップと、
ループ拡張ステップであって、すべての最終文集合を取得するように、前記初期文集合を選択するステップから前記最終文集合を取得するステップまでを通じて、それぞれの初期文集合が拡張される、ステップと、
を更に有すること特徴とする知識抽出方法。
請求項３に記載の知識抽出方法であって、前記重み閾値を判定するステップは、
Ｆが１以上であるときに、前記重み閾値＝（Ｋ／Ｆ）／Ｇであり、
Ｆが１未満であるときに、前記重み閾値＝（Ｋ／Ｆ）＊Ｇであり、
Ｇは、閾値調節係数であり、且つ、Ｇは、１を上回る値であり、Ｋは、プロパティ重み密度であることを特徴とする知識抽出方法。
請求項４に記載の知識抽出方法であって、前記閾値調節係数Ｇは、５≦Ｇ≦３０の範囲であることを特徴とする知識抽出方法。
請求項１乃至５のいずれか一項に記載の知識抽出方法であって、プロパティの組を判定するステップであって、前記プロパティの組は、Ｎ個のプロパティパラメータα_iと、前記プロパティパラメータα_iに対応した重みｖ_iと、を含み、Ｎは、正の整数であり、ｉは、整数であり、且つ、１≦ｉ≦Ｎである、ステップ、
式Ｋ＝Σｖ_i／Ｎを使用してプロパティ重み密度取得するステップ、
且つ／又は、
最終文集合重みを取得するステップであって、最終文集合重みは、前記最終文集合中に含まれているプロパティパラメータα_i及び対応した重みＶ_iに従って取得され、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα_iの対応した重みＶ_iの合計である、ステップ、
前記最終文集合重みに従って最終文集合重み密度を取得するステップであって、最終文集合重み密度Ｋ’＝前記最終文集合重み／前記最終文集合の長さである、ステップ、
を更に有することを特徴とする知識抽出方法。
請求項３乃至６のいずれか一項に記載の知識抽出方法であって、前記比較結果Ｆを判定するステップにおいて、
前記初期文集合の左拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、
前記初期文集合の右拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、
ことを特徴とする知識抽出方法。
請求項３又は７に記載の知識抽出方法であって、前記文集合拡張のステップは、
左及び／又は右拡張用の文数閾値を設定するステップであって、前記左拡張文数閾値は、Ｌであり、且つ、前記右拡張文数閾値は、Ｒである、ステップ、
を更に有し、
前記初期文集合を左拡張及び／又は右拡張するステップ及び前記最終文集合を取得するステップにおいて、前記初期文集合の左拡張用の前記文の数が前記左拡張文数閾値Ｌを上回っているときに、左拡張は、前記初期文集合に対してもはや実行されず、前記初期文集合の右拡張用の前記文の数が前記右拡張文数閾値Ｒを上回っているときに、右拡張は、前記初期文集合に対してもはや実行されないことを特徴とする知識抽出方法。
請求項８に記載の知識抽出方法であって、前記左及び／又は右拡張用の文数閾値を設定するステップにおいて、前記初期文集合の左及び右拡張の両方のケースにおいては、前記左拡張文数閾値Ｌは、６に設定され、且つ、前記右拡張文数閾値Ｒは、６に設定され、前記初期文集合の左拡張のみのケースにおいては、前記左拡張文数閾値Ｌは、１２に設定され、且つ、前記右拡張文数閾値Ｒは、０に設定され、前記初期文集合の右拡張のみのケースにおいては、左拡張文数閾値Ｌは、０に設定され、且つ、前記右拡張文数閾値Ｒは、１２に設定されることを特徴とする知識抽出方法。
請求項３乃至９のいずれか一項に記載の知識抽出方法であって、前記左文の重み及び／又は右文の重みを取得するステップにおいて、
前記重みＷ_Lは、前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iの合計であり、
前記重みＷ_Rは、前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iの合計であることを特徴とする知識抽出方法。
知識抽出システムであって、
初期文集合を取得する初期文集合取得モジュール（１）であって、前記文集合は、１つ又は複数の文を含む、モジュールと、
前記初期文集合取得モジュール（１）によって取得された前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する初期文集合拡張モジュール（２）と、
前記初期文集合拡張モジュール（２）によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール（３）と、
を有し、
初期文集合拡張モジュール（２）は、
前記初期文集合の長さを前記予想長さと比較した前記結果Ｆを判定する比較結果判定サブユニット（２１１）であって、Ｆ＝前記予想長さ／（前記初期文集合の前記長さ＋冗長値）である、サブユニットを有する、
ことを特徴とするシステム。
請求項１１に記載の知識抽出システムであって、前記初期文集合拡張モジュール（２）は、
前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って前記初期文集合用の重み閾値を設定する重み閾値設定ユニット（２１）と、
前記初期文集合の拡張において、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張する文集合拡張ユニット（２２）と、
を有し、
且つ／又は、
前記初期文集合取得モジュール（１）は、
文書を文に分割する文分割ユニット（１１）と、
Ｉ個の連続した文によって前記初期文集合を構築する抽出ユニット（１２）であって、Ｉは、１以上の整数である、ユニットと、
を有し、
且つ／又は、
前記知識抽出モジュール（３）は、
前記最終文集合を重複除外し、且つ、次いで、前記最終文集合を出力する最終文集合重複除外及び出力ユニット（３１）、
を有し、
且つ／又は、
前記知識抽出モジュール（３）は、
前記最終文集合用の最小長さを設定し、且つ、前記最小長さ未満の長さを有する前記最終文集合を除去した後に前記最終文集合を出力する最終文集合除去及び出力ユニット（３２）、
及び／又は、
最終文集合をソート及び出力する最終文集合ソート及び出力ユニット（３３）であって、最終文集合は、それぞれの最終文集合の前記重み密度Ｋ’に従って、ソートされ、且つ、次いで、出力される、ユニット、
を更に有することを特徴とする知識抽出システム。
請求項１２に記載の知識抽出システムであって、前記重み閾値設定ユニット（２１）は、
重み閾値を判定する重み閾値判定サブユニット（２１２）であって、Ｆが１以上であるときの重み閾値は、Ｆが１未満であるときの重み閾値未満である、サブユニット、
を有し、
且つ／又は、
前記文集合拡張ユニット（２２）は、
前記初期文集合取得モジュール１から拡張用の初期文集合を選択する初期文集合選択サブユニット（２２１）と、
前記初期文集合に隣接した左文及び／又は右文中に含まれているプロパティパラメータα_i及び対応した重みｖ_iに従って前記初期文集合に隣接した前記左文の重みＷ_L及び／又は前記右文の重みＷ_Rを取得する文重み取得サブユニット（２２２）と、
前記初期文集合に隣接した前記左文の前記重みＷ_L及び／又は前記右文の前記重みＷ_Rを前記重み閾値と比較する比較サブユニット（２２３）と、
前記初期文集合に隣接した前記左文の前記重みＷ_L及び／又は前記右文の前記重みＷ_Rが前記重み閾値以上である場合に、最終文集合を取得するように、前記初期文集合に対して拡張がもはや実行されない時点まで、前記左文及び／又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット（２２２）に出力する新しい文集合取得サブユニット（２２４）であって、前記最終文集合は、前記知識抽出モジュール（３）に出力される、サブユニットと、
前記新しい文集合取得サブユニット（２２４）が最終文集合を取得した後に、前記初期文集合取得モジュール（１）から拡張用の別の初期文集合を選択するように、前記初期文集合選択サブユニット（２２１）を制御するループ拡張サブユニット（２２５）と、
を有することを特徴とする知識抽出システム。
請求項１３に記載の知識抽出システムであって、前記重み閾値判定サブユニット（２１２）は、
閾値調節係数Ｇを設定及び出力する閾値調節係数設定装置（２１２ａ）であって、Ｇは、１を上回る値である、装置と、
プロパティ重み密度Ｋを取得及び出力するプロパティ重み密度取得装置（２１２ｂ）と、
前記閾値調節係数設定装置（２１２ａ）、前記プロパティ重み密度取得装置（２１２ｂ）、及び比較結果判定ユニット（２１１）の出力に従って重み閾値を取得及び出力する重み閾値取得装置（２１２ｃ）であって、Ｆが１以上であるときに、前記重み閾値＝（Ｋ／Ｆ）／Ｇであり、Ｆが１未満であるときに、前記重み閾値＝（Ｋ／Ｆ）＊Ｇであり、Ｇは、閾値調節係数であり、且つ、Ｇは、１を上回る値であり、Ｋは、プロパティ重み密度である、装置と、
を有し、
且つ／又は、
前記比較結果判定ユニット（２１１）は、
冗長値を設定する冗長値設定装置（２１１ａ）であって、前記初期文集合の左拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、前記初期文集合の右拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、装置、
を有し、
且つ／又は、
前記文重み取得サブユニット（２２２）は、
前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iを合算して前記左文の重みＷ_Lを取得する第１重み取得装置（２２２ａ）と、
前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータα_iに対応した重みｖ_iを合算して前記右文の重みＷ_Rを取得する第２重み取得装置（２２２ｂ）と、
を有することを特徴とする知識抽出システム。
請求項１１乃至１４のいずれか一項に記載の知識抽出システムであって、Ｎ個のプロパティパラメータα_i及び前記プロパティパラメータα_iに対応した重みｖ_iを含むプロパティの組を保存するプロパティセットモジュール（４）であって、Ｎは、正の整数であり、ｉは、整数であり、且つ、１≦ｉ≦Ｎである、モジュールを更に有し、
前記プロパティ重み密度取得装置（２１２ｂ）は、式Ｋ＝Σｖ_i／Ｎを使用してプロパティ重み密度Ｋを取得することを特徴とする知識抽出システム。
請求項１３又は１５に記載の知識抽出システムであって、前記文集合拡張ユニット（２２）は、
前記初期文集合用の左拡張文数閾値Ｌ及び／又は前記初期文集合用の右拡張文数閾値Ｒを設定する閾値設定サブユニット（２２６）と、
前記初期文集合内に左拡張された文の数をカウント及び出力する第１カウントサブユニット（２２７ａ）と、
前記初期文集合内に右拡張された文の数をカウント及び出力する第２カウントサブユニット（２２７ｂ）と、
を更に有し、
前記比較サブユニット（２２３）は、前記初期文集合内に左拡張された前記文の数を前記左拡張文数閾値Ｌと比較し、且つ、前記初期文集合内に右拡張された前記文の数を前記右拡張文数閾値Ｒと比較するべく、更に使用され、
前記新しい文集合取得サブユニット（２２４）は、前記初期文集合内に左拡張された前記文の数がＬ以下であると共に／又は前記初期文集合内に右拡張された前記文の数がＲ以下であり、且つ、前記初期文集合に隣接した前記左文の前記重みＷ_L及び／又は前記右文の前記重みＷ_Rが前記重み閾値以上である場合に、最終文集合を取得するように、拡張が前記初期文集合に対してもはや実行されない時点まで、前記左文及び／又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット（２２２）に出力するべく、更に使用され、前記最終文集合は、前記知識抽出モジュール（３）に出力されることを特徴とする知識抽出システム。
請求項１６の記載の知識抽出システムであって、前記初期文集合の左及び右拡張の両方を実行するケースにおいては、前記閾値設定サブユニット（２２６）は、前記左拡張文数閾値Ｌを６に設定し、且つ、前記右拡張文数閾値Ｒを６に設定し、前記初期文集合の左拡張のみを実行するケースにおいては、前記左拡張文数閾値Ｌを１２に設定し、且つ、前記右拡張文数閾値Ｒを０に設定し、前記初期文集合の右拡張のみを実行するケースにおいては、前記左拡張文数閾値Ｌを０に設定し、且つ、前記右拡張文数閾値Ｒを１２に設定することを特徴とする知識抽出システム。
請求項１６乃至１７のいずれか一項に記載の知識抽出システムであって、前記文集合拡張ユニット（２２）は、
前記最終文集合中に含まれているプロパティパラメータα_i及び対応した重みＶ_iに従って最終文集合重みを取得する文集合重み取得サブユニット（２２８ａ）であって、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータα_iの対応した重みＶ_iの合計である、サブユニットと、
前記最終文集合の長さを取得する文集合長さ取得サブユニット（２２８ｂ）と、
前記最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット（２２８ｃ）であって、前記最終文集合重み密度Ｋ’＝前記最終文集合重み／前記最終文集合の長さである、サブユニットと、
を更に有することを特徴とする知識抽出システム。
コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された１つ又は複数のコンピュータ可読媒体であって、
前記方法は、
初期文集合を取得するステップであって、前記初期文集合は、１つ又は複数の文を含む、ステップと、
前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき初期文集合を判定する、ステップと、
知識を抽出するステップであって、拡張の後に最終的に取得された最終文集合を出力して知識抽出を実現する、ステップと、を有し、
前記初期文集合を拡張するステップは、
比較結果Ｆを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Ｆをする判定するステップであって、Ｆ＝前記予想長さ／（前記初期文集合の前記長さ＋冗長値）である、ステップを有する、
コンピュータ可読媒体。