JP6321787B2 - 知識抽出方法及びシステム - Google Patents

知識抽出方法及びシステム Download PDF

Info

Publication number
JP6321787B2
JP6321787B2 JP2016518163A JP2016518163A JP6321787B2 JP 6321787 B2 JP6321787 B2 JP 6321787B2 JP 2016518163 A JP2016518163 A JP 2016518163A JP 2016518163 A JP2016518163 A JP 2016518163A JP 6321787 B2 JP6321787 B2 JP 6321787B2
Authority
JP
Japan
Prior art keywords
sentence
sentence set
initial
weight
final
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016518163A
Other languages
English (en)
Other versions
JP2016538616A (ja
Inventor
マオ イエ
マオ イエ
リーフオン ジン
リーフオン ジン
チャオ レイ
チャオ レイ
ユエンローン ワーン
ユエンローン ワーン
ジー ターン
ジー ターン
ジエンボー シュイ
ジエンボー シュイ
Original Assignee
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ファウンダー アパビ テクノロジー リミティド
ファウンダー アパビ テクノロジー リミティド
ペキン ユニバーシティ
ペキン ユニバーシティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ファウンダー アパビ テクノロジー リミティド, ファウンダー アパビ テクノロジー リミティド, ペキン ユニバーシティ, ペキン ユニバーシティ filed Critical ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
Publication of JP2016538616A publication Critical patent/JP2016538616A/ja
Application granted granted Critical
Publication of JP6321787B2 publication Critical patent/JP6321787B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、知識抽出の方法及びシステムに関し、更に詳しくは、デジタルデータ処理技術の分野に関連する文集合に基づいた知識抽出の方法及びシステムに関する。
知識抽出は、自然言語処理、セマンティックウェブ、機械学習、知識工学、知識発見、知識管理、テキストマイニングなどのような多数の分野に共通して関係する研究対象の1つである。新たに開発された研究対象として、知識抽出は、テキスト情報からの知識の抽出を意味し、即ち、文書に対して実行されるコンテンツ解析及び処理を通じて、項目に基づき文書中に含まれる知識の抽出を意味する。知識抽出は、ある種の知識獲得であって、情報抽出の純化であり深化する。現時点においては、多数の知識リソースは、デジタル刊行物の形式で利用可能であるが、文集合の形式で存在する知識リソースは少ない。文集合は、意味及び構造において密接な関連を有する連続した文によって形成された音声情報の単位であり、知識の有効な表現形態として考えられている。文集合は、書籍中の記事から抽出される(記事は、従来の知識構成形態である)。従来の知識構成及び管理方式が完全に変化しうるように、文集合に基づいた知識抽出を通じて、文書処理の粒度が文集合のレベルにまで引き下げられてもよい。
知識抽出のプロセスにおいて、従来技術においては、個々の文に基づいて知識抽出を実行し、次いで、抽出を通じて取得された個々の文を出力のために組み合わせるという方法が一般に採用されている。この方法は、連続した文の一貫性を無視しており、その結果、抽出された知識情報が論理的な一貫性を欠くことになるので、理解に不便なものとなっている。
抽出された知識情報における論理的な一貫性の欠如及び理解の不便性という従来技術における問題を解決するべく、本発明は、抽出された知識情報の論理的な一貫性を保証することができる知識抽出方法及びシステムを提供する。
上述の問題を解決するべく、本発明においては、以下の技術的解決策が提供される。
本発明の一態様によれば、知識抽出方法が提供され、方法は、初期文集合を取得するステップであって、文集合は、1つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
任意の選択として、初期文集合を拡張するステップは、重み閾値を設定するステップであって、初期文集合の長さを予想長さと比較するステップの結果に従って重み閾値が初期文集合について設定される、ステップと、文集合を拡張するステップであって、拡張するべき文の重みが重み閾値と比較される、ステップと、比較結果に従って初期文集合を拡張するステップと、を有する。
任意の選択として、初期文集合を取得するステップは、テキストを文に分割するステップと、I個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Iは、1以上の整数である。任意の選択として、I=3である。
本発明の別の態様によれば、知識抽出システムが更に提供され、システムは、初期文集合を取得する初期文集合取得モジュールであって、初期文集合は、1つ又は複数の文を含む、モジュールと、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュールと、初期文集合拡張モジュールの拡張の後に最終的に取得された文集合を出力して知識抽出を実現する知識抽出モジュールと、を有する。
任意の選択として、初期文集合拡張モジュールは、初期文集合の長さを予想長さと比較した結果に従って初期文集合用の重み閾値を設定する重み閾値設定ユニットと、初期文集合の拡張において、拡張するべき文の重みを重み閾値と比較し、且つ、比較結果に従って初期文集合を拡張する文集合拡張ユニットと、を有する。
任意の選択として、初期文集合取得モジュールは、テキストを文に分割する文分割ユニットと、I個の連続した文によって初期文集合を形成する抽出ユニットと、を有し、ここで、Iは、1以上の整数である。
任意の選択として、文分割ユニットは、3つの連続した文によって初期文集合を形成する。
本発明の更に別の態様によれば、コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ可読命令が保存された1つ又は複数のコンピュータ可読媒体も提供され、方法は、初期文集合を取得するステップであって、初期文集合は、1つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、有する。
本開示における知識抽出方法及びシステムによれば、知識抽出は、1つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定するステップと、を通じて実現される。文集合は、連続した文によって形成されることから、初期文集合を拡張するステップを通じて取得される最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。
更には、本開示における知識抽出方法及びシステムによれば、最終文集合は、初期文集合の左拡張及び/又は右拡張を通じて取得されており、論理における良好な一貫性が、最終的に取得される抽出された文集合について保証されており、これにより、意外な印象が生じることを抑制しうる。その一方で、初期文集合の左拡張及び/又は右拡張を通じて、抽出するべき文の抜けが防止され、その結果、抽出された知識情報に含まれるコンテンツがより広範なものとなりうる。
本発明の十分な理解のために、添付図面を参照し、説明を付与することとする。
本発明の知識抽出方法のブロックダイアグラムである。 本発明の一実施形態による初期文集合に対して左拡張を実行するステップのフローチャートである。 本発明の知識抽出システムの構造のブロックダイアグラムである。 本発明の好適な実施形態による知識抽出システムの構造のブロックダイアグラムである。
1 初期文集合取得モジュール、2 初期文集合拡張モジュール、3 知識抽出モジュール、4 プロパティセットモジュール、11 文分割ユニット、12 抽出ユニット、21 重み閾値設定ユニット、22 文集合拡張ユニット、31 最終文集合重複除外及び出力ユニット、32 最終文集合除去及び出力ユニット、33 最終文集合ソート及び出力ユニット、211 比較結果判定サブユニット、211a 冗長値設定装置、212 重み閾値判定サブユニット、212a 閾値調節係数設定装置、212b プロパティ重み密度取得装置、212c 重み閾値取得装置、221 初期文集合選択サブユニット、222 文重み取得サブユニット、222a 第1重み取得装置、222b 第2重み取得装置、223 比較サブユニット、224 新しい文集合取得サブユニット、225 ループ拡張サブユニット、226 閾値設定サブユニット、227a 第1カウントサブユニット、227b 第2カウントサブユニット、228a 文集合重み取得サブユニット、228b 文集合長さ取得サブユニット、228c 重み密度取得サブユニット
実施形態1
本実施形態においては、図1に示すように、知識抽出法について説明するが、方法は、
S102:初期文集合を取得するステップであって、初期文集合は、1つ又は複数の文を含む、ステップと、
S104:初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定する、ステップと、
S106:知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
本実施形態においては、知識抽出は、1つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定するステップと、を通じて実現されている。文集合は、連続した文によって形成されることから、初期文集合を拡張するステップを通じて取得される最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。
好適な一実施形態として、本実施形態の知識抽出方法においては、初期文集合を取得するステップは、テキストを文に分割するステップと、I個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Iは、1以上の整数である。好適な一実施形態においては、I=3である。
本実施形態においては、テキストを文に分割し、3つの連続した文によって初期文集合を形成している。本実施形態においては、I=3であるときに、抽出されたそれぞれの最終文集合が少なくとも3つの文を含むことが保証されることにより、相対的に良好な出力結果が得られる。本実施形態においては、初期文集合自体が良好な論理的関係を有するように、3つの連続した文をテキストから引き出して初期文集合を形成しており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有し、意外な印象が生じることを抑制しうる。
本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、重み閾値を設定するステップであって、初期文集合の長さを予想長さと比較した結果に従って、重み閾値が初期文集合について設定される、ステップと、文集合を拡張するステップであって、拡張するべき文の重みが重み閾値と比較される、ステップと、比較結果に従って初期文集合を拡張するステップと、を有する。
別の代替実施形態として、本実施形態の知識抽出方法においては、初期文集合を拡張するステップは、初期文集合の長さと予想長さとを比較するステップと、初期文集合の長さが予想長さに到達していない場合に、初期文集合を拡張するステップと、初期文集合の長さが予想長さに到達しているか又はそれを超過している場合に、拡張を終了するステップと、を有してもよい。
本実施形態においては、初期文集合が拡張される方式とは無関係に、初期文集合の長さと予想長さの間の関係が考慮されており、これにより、最終的に抽出された文集合の長さは、予想長さに極めて近づくことになる。
この実施形態における予想長さは、当業者にとってよく知られている。例えば、特許明細書の要約文の長さに300ワードを超過しないという制限が存在する。特許出願の要約文を形成するためにテキストから関連する文を抽出するケースにおいては、予想長さは、300ワードである。予想長さに対する特定の要件が存在しない場合には、予想長さは、実質的な要件に基づいて選択されてもよい。
本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、すべて、文字の数がカウントされる。
実施形態2
実施形態1に基づいて、図2に示す本実施形態の知識抽出方法においては、重み閾値を設定するステップは、比較結果Fを判定するステップであって、初期文集合の長さを予想長さと比較した結果F=予想長さ/(初期文集合の長さ+冗長値)を判定するステップと、重み閾値を判定するステップであって、Fが1以上であるときの重み閾値、Fが1未満であるときの重み閾値であって、一実施形態において、重み閾値を判定するステップで、Fが1以上であるときは、重み閾値=(K/F)/Gであり、Fが1未満であるときは、重み閾値=(K/F)*Gであり、ここで、Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度であり、任意の選択として、閾値調節係数Gは、5≦G≦30である、ステップと、を有する。
本実施形態においては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定され、ここで、比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、重み閾値は、比較結果Fの関数として設定され、Fが1以上であるときは、重み閾値=(K/F)/Gであり、Fが1未満であるときは、重み閾値=(K/F)*Gである。従って、比較結果Fが小さいほど、即ち、初期文集合の長さが、予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は、大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際の状況に基づいて動的に調節されうる基準を提供している。
好適な一実施形態として、閾値調節係数Gは、5≦G≦30の範囲である。知識抽出の最良の効果は、閾値調節係数Gがこの範囲に設定されたときに、得られうることが実験によって実証されている。
一代替実施形態として、本実施形態の知識抽出方法は、プロパティの組を判定するステップであって、プロパティの組は、N個のプロパティパラメータαiと、プロパティパラメータαiに対応した重みviと、を含み、ここで、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、ステップと、プロパティ重み密度を取得するステップであって、プロパティ重み密度Kは、式K=Σvi/Nを使用して取得される、ステップと、を更に有する。
プロパティパラメータαiのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータαiが文中に含まれているかどうかを判定するステップは、文が、プロパティパラメータαiを表す文字ストリングを含んでいるかどうかを判定するものである。プロパティパラメータαiに対応した重みviは、プロパティパラメータαiの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータαiが重要であるほど、対応した重みviには、より大きな値が割り当てられ、且つ、逆もまた同様である。
また、式K=Σvi/Nに加えて、プロパティ重み密度Kは、実質的な要件に従って、ユーザーにより規定されてもよい。
実施形態3
実施形態1及び実施形態2に基づいて、図2に示す本実施形態の知識抽出方法において、文集合拡張のステップは、初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って左文の重み及び右文の重みを取得し、これにより、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得するステップと、初期文集合を左拡張及び/又は右拡張するステップであって、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが、重み閾値以上である場合に、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張が実行されない、ステップと、最終文集合を取得するステップであって、新しい文集合が初期文集合として使用され、且つ、最終文集合を取得するために、初期文集合がもはや拡張されえない時点まで、左文の重み及び右文の重みを取得するステップ及び初期文集合を左拡張及び/又は右拡張するステップが反復される、ステップと、ループ拡張ステップであって、すべての最終文集合を取得するために、それぞれの初期文集合が、初期文集合を選択するステップから最終文集合を取得するステップまでを通じて拡張される、ステップと、を更に有する。
本実施形態においては、初期文集合の拡張は、左拡張、右拡張、又は左−右拡張を有しており、この場合に、初期文集合の左拡張のケースにおいては、初期文集合に隣接した左文の重みWLを取得することのみが必要とされ、初期文集合に隣接した左文の重みWLが重み閾値以上である場合に、左文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の右拡張のケースにおいては、初期文集合に隣接した右文の重みWRを取得することのみが必要とされ、初期文集合に隣接した右文の重みWRが重み閾値以上である場合に、右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されず、初期文集合の左及び右拡張のケースにおいては、初期文集合と隣接した左文の重みWL及び右文の重みWRを取得する必要があり、初期文集合に隣接した左文の重みWLが重み閾値を上回っている場合には、左文が初期文集合内に拡張され、初期文集合に隣接した右文の重みWRが重み閾値を上回っている場合には、右文が初期文集合内に拡張され、初期文集合の左拡張及び右拡張を通じて新しい文集合が取得され、初期文集合に隣接した左文の重みWL及び初期文集合に隣接した右文の重みWRの両方が閾値未満である場合に、初期文集合に対して拡張は実行されない。ここで、左及び右拡張は、左拡張の後の右拡張、又は右拡張の後の左拡張、或いは、交互に左及び右拡張を有してもよい。
本実施形態の知識抽出方法においては、左文の重み及び右文の重みを取得するステップにおいては、重みWLは、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計であり、重みWRは、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計である。
左及び右文に対して実行された上述の判定の後に、例えば、左文は、プロパティパラメータα1及びα2を含み、左文の重みは、WL=v1+v2であることが判定され、右文は、プロパティパラメータα3及びα4を含み、右文の重みは、WR=v3+v4であると判定される。ここで、同一のプロパティαiが複数回にわたって発生したときに、対応した重みviは、一回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティαiは、プロパティαiが発生した回数だけ、累算されてもよい。
一代替解決策として、文重みを算出する代替方法は、Σβiiであり、ここで、βiiは、文中において発生したプロパティαiによって寄与される値であり、βiは、プロパティαiのフィールド特性重みである。プロパティαiのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。βiが1であるときには、本実施形態において採用されている方式となる。この実施形態は、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得する方法を提供するのみである。同一の方法が、すべての文重み値の算出の間中に使用されている限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。
本実施形態の知識抽出方法において、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値は初期文集合について設定される。比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、且つ、重み閾値は、比較結果Fの関数として設定される。比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さにより極めて近づくほど、或いは、初期文集合の長さが予想な長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが閾値と比較され、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが、重み閾値以上である場合にのみ、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、これにより、左文の重みWLと右文の重みWRは、重み閾値よりも大きくなる傾向になり、これにより、左文及び/又は右文は、初期文集合内に拡張されやすくなり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び/又は右文は、多くのプロパティパラメータαiを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。
本実施形態の知識抽出方法において、比較結果Fを判定するステップで、初期文集合の左拡張のケースでは、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、初期文集合の右拡張のケースでは、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。
実際的な用途において、左拡張では、冗長値は、初期文集合に隣接した左文の長さのm倍の値として選択されてもよく、右拡張では、冗長値は、初期文集合に隣接した右文の長さのm倍の値として選択されてもよく、好ましくは、mは、1未満の値である。mが0.5であるときには、本実施形態において提供される方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくことになろう。
実施形態4
実施形態1〜実施形態3のいずれかに基づいて、図2に示すように、本実施形態の知識抽出方法においては、文集合拡張のステップは、左及び/又は右拡張用の文数閾値を設定するステップであって、左拡張文数閾値は、Lであり、且つ、右拡張文数閾値は、Rである、ステップ、を更に有する。
初期文集合を左拡張及び/又は右拡張して最終文集合を取得するステップにおいては、初期文集合の左拡張用の文の数が左拡張文数閾値Lを上回っているときには、初期文集合に対してもはや左拡張は実行されず、初期文集合の右拡張用の文の数が、右拡張文数閾値Rを上回っている場合には、初期文集合に対してもはや右拡張は実行されない。
図2は、本発明の一実施形態による初期文集合を左拡張するステップのフローチャートに過ぎない。但し、本発明による初期文集合を左拡張するいくつかのステップの実行シーケンスは、図2に示すものに限定されない。プロパティの組を判定するステップ、プロパティ重み密度を判定するステップ、閾値調節係数Gを設定するステップ、初期文集合の長さと予想長さの間における比較結果を判定するステップなど、いくつかのパラメータを取得及び設定するステップは、ループプロセスの前に実行されてもよく、或いは、ループプロセスにおける初期文集合の拡張の前に実行されてもよい。
初期文集合の左及び/又は右拡張用の文の数を制限するステップを通じて、初期文集合の左及び/又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出された文集合のチェック及び理解を容易なものにしてもよい。
好適な一実施形態として、本実施形態の知識抽出方法において左及び/又は右拡張用の文数閾値を設定するステップにおいて、初期文集合を左及び右拡張するケースでは、左拡張文数閾値Lは、6に設定され、且つ、右拡張文数閾値Rは、6に設定され、初期文集合の左拡張のみを実行するケースでは、左拡張文数閾値は、12に設定され、且つ、右拡張文数閾値Rは、0に設定され、初期文集合の右拡張のみを実行するケースでは、左拡張文数閾値Lは、0に設定され、且つ、右拡張文数閾値Rは、12に設定される。
左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文一貫性のみならず、最終文集合の長さ制御の観点において、最良の効果が取得されうることが実験によって実証されている。
実施形態5
実施形態1〜実施形態4のいずれかに基づいて、本実施形態の知識抽出方法は、最終文集合重みを取得するステップであって、最終文集合重みは、最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って取得され、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、ステップと、最終文集合重み密度を取得するステップであって、最終文集合重み密度K’=最終文集合重み/最終文集合重みに応じた最終文集合の長さである、ステップと、を更に有する。
なお、最終文集合重み密度K’の計算においては、最終文集合重み密度K’の計算において、同一の基準が、それぞれの最終文集合に採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意する。
上述の判定から、例えば、最終文集合は、プロパティパラメータα1、α3、α5を含み、重みV1、V3、V5を合算するステップを通じて、重み=V1+V3+V5が最終文集合について取得され、最終文集合の長さが300文字である場合には、最終文集合重み密度K’=(V1+V3+V5)/300であると判定される。最終文集合中の1つの文又は様々な文が、複数のプロパティパラメータαiを含む場合には、その対応した重みは、一度だけ又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータαiは、その対応した重みViが発生する回数だけ加算されうる。
或いは、この代わりに文集合重み計算の代替方式は、Σβiiであり、ここで、βiiは、文集合中の文中に存在するプロパティαiによって寄与される値であり、βiは、プロパティαiのフィールド特性重みである。プロパティαiのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβiが1であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文の重みを算出するべく使用される限り、従来技術に存在している文重みを算出するその他の方法が採用されてもよい。
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を重複除外及び出力するステップであって、最終文集合が、重複除外され、且つ、次いで、出力される、ステップを更に有する。
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合を除去及び出力するステップであって、最小長さが最終文集合について設定され、且つ、最小長さ未満の長さを有する最終文集合が除去される、ステップを更に有する。
本実施形態の知識抽出方法によれば、知識を抽出するステップは、最終文集合をソート及び出力するステップであって、最終文集合が、それぞれの最終文集合の重み密度K’に従ってソートされ、且つ、次いで、出力される、ステップを更に有する。
本実施形態の知識抽出方法によれば、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツを読み取るステップに起因した時間の浪費が防止されうるように、重複した知識情報の出力が回避され、最終文集合用の最小長さを設定するステップ及び最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれることにより、ユーザーによる問合せの要件が充足され、それぞれの最終文集合の重み密度K’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度K’により、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せの時間が低減されうるように、望ましい知識情報を取得するべく最初の少ない数の最終文集合を読み取ることのみが必要とされる。
知識抽出の具体例が、以下のテキストにとともに、本実施形態において更に提供される。
Figure 0006321787
プロパティの組T:
Figure 0006321787
上記のプロパティの組内には、合計で68個のプロパティが存在している。これらのプロパティに対応した重みの合計は、1であり、従って、プロパティ重み密度K=1/68=0.1470588である。
上記のテキストは、ピリオド、疑問符、及び感嘆符などの完全な文を表す句読法に基づいてセグメント化され、且つ、セグメント化の後に、合計で40個の文が得られる。以下の説明をわかりやすくするべく、それぞれの文ごとに、ラベルが提供される。本実施形態において、これら40個の文は、J1〜J40としてラベル付与される。これらのラベルは、この技術的解決策の理解を容易にする目的で提供される。実際的なシステムの動作において、これらのラベルは、テキスト中に実際には存在しない。
初期文集合は、任意の3つの連続した文によって形成され、且つ、このような方式で取得された初期文集合が、以下の表に示される。
Figure 0006321787
上述の初期文集合が取得された後に、拡張が、それぞれの初期文集合について実行される。以下に、知識抽出のプロセスにおいて文集合を拡張する方法を説明するべく、3つの文J5〜J7という初期文集合を例として取り上げる。
この文集合拡張のプロセスにおいて、予想文集合長さは、300に設定される。文集合の左拡張では、冗長値は、左隣接文の半分に設定され、且つ、L=6であり、文集合の右拡張では、冗長値は、右隣接文の半分に設定され、且つ、R=6である。文集合の左拡張及び右拡張の両方において、右拡張の前の左拡張について説明を付与することとする。或いは、この代わりに、左拡張の前の右拡張も可能であり、或いは、左拡張及び右拡張は、交互に実行されてもよい。
文集合のパラメータ及び文集合に隣接した左文が以下のように取得される。
文集合中に含まれる文字(空白を除外する)をカウントされたJ5〜J7の文集合の長さは、155であり、この基準は、文字をカウントするべく、本実施形態の全体を通じて使用される。文集合に隣接した左文は、J4であり、且つ、J4の長さは、23であり、プロパティ「秦国」及び
Figure 0006321787
を含む。これにより、J4の重みは、「秦国」に対応した重み0.045021438780371605と
Figure 0006321787
に対応した重み0.115054787994283との合計であり、これは、0.160076226774654605である。
重み閾値は、以下のように取得される。閾値調節係数Gを20に設定し、初期文集合の長さ及び予想長さに従って、F=300/(155+23/2)=1.801が取得され、F>1であることから、重み閾値は、(K/F)/G=0.004069142として選択され、J4の重みは、重み閾値を上回っており、且つ、左拡張された文の数は、6未満であることから、J4を文集合内に拡張して新しい文集合J4〜J7を形成してもよい。
新しい文集合J4〜J7を初期文集合として取得しつつ、左拡張が継続する。新しい文集合の長さは、155+23=178であり、初期文集合に隣接した左文は、J3であり、その長さは、41であり、これは、プロパティ「割据」及び
Figure 0006321787
を含む。これにより、初期文集合の重みは、これら2つのプロパティに対応した重みの合計0.01643639828489757+0.115054787994283=0.13149118627918057であり、F=300/(178+41/2)=1.51133501である。
F>1であることから、重み閾値は、(K/F)/G=0.0048774502として選択される。
J3の重みが重み閾値を上回っており、且つ、左拡張された文の数が6未満であることから、J3を文集合内に拡張して新しい文集合J3〜J7を形成してもよい。
同様に、上述のステップを通じて、判定が、同様のステップにおいて、J2及びJ1に対して順番に実行されるが、これについては、詳細説明を省略することとする。これらの判定の後に、J2及びJ1の両方が、文集合内に拡張される基準を充足していると判定される。但し、J1は、左側の最初の文であることから、文集合の左拡張は、J1が左拡張されたときに、自動的に終了し、且つ、左拡張の後に、新しい初期文集合J1〜J7が取得される。
右拡張が初期文集合J1〜J7に対して実行される。初期文集合の長さは、267であり、且つ、初期文集合に隣接した右文は、J8である。J8の長さは、64であり、且つ、これは、プロパティ「秦王」、
Figure 0006321787
及び「皇帝」を含み、ここで、「皇帝」は、2回出現しており、これにより、J8の重みは、以下のように、「秦王」の重み、
Figure 0006321787
の重み、及び「皇帝」の重みの合計を2によって乗算したもの0.02763220581229150+0.11505478799428300+0.06955693187232010*2=0.2818008575512147である。
F=300/(267+64/2)=1.0033444816である。
F>1であることから、重み閾値(K/F)/G=0.0073284302が選択される。
J8の重みは、重み閾値を上回っており、且つ、右拡張された文の数は、6未満であることから、J8を初期文集合内に拡張して新しい文集合J1〜J8を形成する。
文集合J1〜J8を新しい初期文集合として取得しつつ、右拡張が継続する。
初期文集合の長さは、331であり、且つ、初期文集合に隣接した右文は、J9である。J9の長さは、38であり、且つ、これは、プロパティ
Figure 0006321787
及び
Figure 0006321787
を含む。これにより、その重みは、0.11505478799428300+0.02096236303001420=0.1360171510242972として算出される。
F=300/(329+38/2)=0.857142857である。
F<1であり、重み閾値(K/F)*G=3.431372が選択される。
右拡張された文の数は、6未満であるが、J9の重みが重み閾値未満であることから、J9は、文集合内に拡張されることができず、且つ、文集合拡張は、終了する。従って、文集合の長さが予想長さを上回っている場合には、重み閾値は、非常に大きくなり、その結果、中程度の重みを有する文の文集合内への拡張が困難になる。
類似の方法において、拡張が、その他の初期文集合に基づいて実行される。当業者には、全体文書中のすべての初期文集合が、上述のプロセスに従って拡張されてもよく、これに関する本明細書における更なる説明は、省略することとする。
すべての最終文集合が取得された後に、重複する文集合が除去され、且つ、文集合は、その重み密度に従ってソートされる。重み密度K’=最終文集合の重み/最終文集合の長さであり、最終文集合の長さは、最終文集合中に含まれている文字の数であり、最終文集合の重みは、最終文集合中の様々な文の重みの合計である。ここで、それぞれの文の重みは、上述の方法によって、即ち、文内に出現したすべてのプロパティの重みを合算するステップを通じて、算出される。
上述の入力テキストとの関係において、20個の最終文集合が取得され、これらは、重み密度によってソートされ、且つ、J1−J8、J3−J9、J6−J10、J7−J11、J2−J8、J7−J12、J8−J13、J22−J26、J26−J30、J15−J19、J14−J18、J22−J27、J15−J20、J29−J34、J34−J40、J13−J17、J33−J40、J16−J22、J12−J17、J17−J22として出力される。
実施形態6
本実施形態は、図3に示す知識抽出システムを提供し、システムは、初期文集合を取得する初期文集合取得モジュール1であって、文集合は、1つ又は複数の文を含む、モジュールと、初期文集合取得モジュール1によって取得された初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュール2と、初期文集合拡張モジュール2によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール3と、を含む。
この実施形態においては、知識抽出は、初期文集合取得モジュール1によって1つ又は複数の文をそれぞれが含む初期文集合を取得するステップと、次いで、初期文集合拡張モジュール2によって初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定するステップと、を通じて実現されており、文集合は、連続した文によって形成されていることから、初期文集合を拡張するステップを通じて取得された最終文集合が、相応して、論理における良好な一貫性を有するように、文集合自体が論理における良好な一貫性を有することが保証されうる。従って、本開示は、従来技術における抽出された知識情報における論理的な一貫性の欠如という欠点を解決しうる。
好適な一実施形態として、本実施形態の知識抽出方法において、初期文集合を取得するステップは、テキストを文に分割するステップと、I個の連続した文によって初期文集合を形成するステップと、を有し、ここで、Iは、1以上の整数である。好適な一実施形態として、I=3である。
本実施形態において、図4に示す本実施形態の知識抽出システムで、初期文集合取得モジュール1は、文書を文に分割する文分割ユニット11と、文の全体を通じてI個の連続した文によって初期文集合を構築する抽出ユニット12と、を有し、ここで、Iは、1以上の整数である。好適な一実施形態として、抽出ユニット12は、文書の全体を通じて3つの連続した文によって初期文集合を構築している。
本実施形態においては、テキスト文書は、3つの連続した文の初期文集合を形成するべく、文分割ユニット11によって文に分割されている。本実施形態においては、相対的に良好な出力結果は、I=3であるときに、抽出されたそれぞれの最終文集合が少なくとも3つの文を含むことが保証されることにより、得られる。本実施形態においては、3つの連続した文は、初期文集合自体が良好な論理的関係を有するように初期文集合を形成するべく、テキストから引き出されており、更には、最終文集合は、初期文集合を拡張するステップを通じて取得されていることから、抽出を通じて取得された最終文集合は、良好な論理的関係を有しており、意外な印象が生じることを抑制しうる。
本実施形態の知識抽出システムにおいては、初期文集合拡張モジュール2は、予想長さとの間における初期文集合の長さの比較の結果に従って、初期文集合用の重み閾値を設定する重み閾値設定ユニット21と、初期文集合の拡張において、拡張するべき文の重みを重み閾値と比較すると共に比較結果に従って初期文集合を拡張する文集合拡張ユニット22と、を有する。
本実施形態においては、初期文集合の長さと予想長さの間における関係が考慮されており、その結果、抽出された最終文集合の長さは、予想長さに極めて近づくことになる。
本実施形態における予想長さは、当業者には馴染み深いものである。例えば、300ワードを超過しないという特許明細書の要約文の長さに対する制限が存在している。特許出願の要約文を形成するべくテキストから関連する文を抽出するケースにおいては、予想長さは、300ワードである。予想長さに関する特定の要件が存在していない場合には、予想長さは、実際的な要件に基づいて選択されうる。
本実施形態及び後続の実施形態における予想長さ、初期文集合の長さ、及び文の長さは、いずれも、文字の数を単位としてカウントされる。
実施形態7
実施形態6に基づいて、図4に示す本実施形態の知識抽出システムにおいては、重み閾値設定ユニット21は、予想長さとの間における初期文集合の長さの比較の結果Fを判定する比較結果判定サブユニット211であって、F=予想長さ/(初期文集合の長さ+冗長値)である、サブユニットと、重み閾値を判定する重み閾値判定サブユニット212であって、Fが1以上であるときの重み閾値は、Fが1未満であるときの重み閾値未満である、サブユニットと、を有する。
本実施形態の知識抽出システムにおいては、重み閾値判定サブユニット212は、閾値調節係数Gを設定及び出力する閾値調節係数設定装置212aであって、Gは、1を上回る値である、装置と、プロパティ重み密度Kを取得及び出力するプロパティ重み密度取得装置212bと、閾値調節係数設定装置212a、プロパティ重み密度取得装置212b、及び比較結果判定ユニット211の出力に従って重み閾値を取得及び出力する重み閾値取得装置212cと、を有し、Fが1以上であるときには、重み閾値=(K/F)/Gであり、Fが1未満であるときには、重み閾値=(K/F)*Gであり、ここで、Gは、閾値調節係数であり、Gは、1を上回る値であり、Kは、プロパティ重み密度である。
本実施形態においては、重み閾値設定ユニット21は、初期文集合の長さと予想長さの間の比較の結果に従って重み閾値を設定し、比較結果判定サブユニット211は、比較結果F=予想長さ/(初期文集合の長さ+冗長値)を判定し、重み閾値取得装置212cは、Fが1以上であるときには、重み閾値=(K/F)/Gを判定し、且つ、Fが1未満であるときには、重み閾値=(K/F)*Gを判定する。従って、比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さに極めて近づくほど、或いは、初期文集合の長さが予想長さを超過しているほど、重み閾値は大きくなり、即ち、重み閾値は、初期文集合の長さと予想長さの間の比較の結果に従って動的に調節されうる。固定された基準が採用されている従来技術との比較において、本実施形態は、抽出された知識情報が予想長さにより近づくことを保証するように、実際的な状況に基づいて動的に調節されうる基準を提供している。
好適な一実施形態として、本実施形態の知識抽出システムにおいて、閾値調節係数設定装置212aは、5≦G≦30という範囲において閾値調節係数Gを設定している。閾値調節係数Gが、この範囲に設定されたときに、知識抽出の最良の効果が得られうることが実験によって実証されている。
一代替実施形態として、本実施形態の知識抽出システムは、N個のプロパティパラメータαi及びプロパティパラメータαiに対応した重みviを含むプロパティの組を保存するプロパティセットモジュール4であって、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、モジュール、を更に有し、プロパティ重み密度取得ユニット212bは、式K=Σvi/Nを使用してプロパティ重み密度Kを取得する。
プロパティパラメータαiのプロパティ名は、抽出するべき知識情報に従って既定されたキーワードであり、且つ、プロパティ名に対応した文字ストリングによって表される。プロパティパラメータαiが文中に含まれているかどうかを判定するステップは、文がプロパティパラメータαiを表す文字ストリングを含んでいるかどうかを判定するというものである。プロパティパラメータαiに対応した重みviは、プロパティパラメータαiの重要性の程度に従って判定されてもよく、即ち、プロパティパラメータαiが重要であるほど、対応した重みviには、より大きな値が割り当てられ、且つ、逆も又同様である。
また、式K=Σvi/Nに加えて、プロパティ重み密度Kは、実際的な要件に従って、ユーザーにより規定されてもよい。
実施形態8
実施形態6又は実施形態7に基づいて、図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、初期文集合取得モジュール1から拡張用の初期文集合を選択する初期文集合選択サブユニット221と、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得する文重み取得サブユニット222と、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを重み閾値と比較する比較サブユニット223と、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力する新しい文集合取得サブユニット224であって、最終文集合は、知識抽出モジュール3に出力される、サブユニットと、新しい文集合取得サブユニット224が最終文集合を取得した後に、初期文集合取得モジュール1から拡張用の別の初期文集合を選択するように、初期文集合選択サブユニット221を制御するループ拡張サブユニット225と、を更に有する。
本実施形態において、初期文集合の左拡張のみのケースにおいては、初期文集合に隣接した左文の重みWLが重み閾値以上である場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文を初期文集合に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
初期文集合の右拡張のみのケースにおいては、初期文集合に隣接した右文の重みWRが重み閾値以上である場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
初期文集合の左及び右拡張の両方のケースにおいては、初期文集合に隣接した左文の重みWL及び初期文集合に隣接した右文の重みWRが重み閾値を上回っている場合に、新しい文集合取得サブユニット224は、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左及び右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力し、最終文集合は、知識抽出モジュール3に出力される。
本実施形態の知識抽出システムにおいて、文重み取得サブユニット222は、初期文集合に隣接した左文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して左文の重みWLを取得する第1重み取得装置222aと、初期文集合に隣接した右文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して右文の重みWRを取得する第2重み取得装置222bと、を有し、上述の判定は、左及び右文に対して実行され、例えば、左文がプロパティパラメータα1及びα2を含むと判定された場合には、左文の重みは、WL=v1+v2であり、右文がプロパティパラメータα3及びα4を含むと判定された場合に、右文の重みは、WR=v3+v4である。ここで、同一のプロパティαiが複数回にわたって発生したときには、対応した重みviは、1回又は複数回にわたって累算されることになる。一般に、ユーザーの要件をより良好に充足する結果を得るべく、プロパティαiは、プロパティαiが発生した回数にわたって累算されうる。
一代替解決策として、文重みを算出する一代替方法は、Σβiiであり、ここで、βiiは、文中において発生したプロパティαiによって寄与される値であり、βiは、プロパティαiのフィールド特性重みである。プロパティαiのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。βiが1であるときには、本実施形態において採用されている方式となる。本実施形態は、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得する方法を提供するのみである。同一の方法が、すべての文重み値の計算の間中に使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。
本実施形態の知識抽出システムにおいては、初期文集合の長さと予想長さの間における比較の結果に従って、重み閾値が、初期文集合について設定される。比較結果F=予想長さ/(初期文集合の長さ+冗長値)であり、且つ、重み閾値は、比較結果Fの関数として設定される。比較結果Fが小さいほど、即ち、初期文集合の長さが予想長さに近づくほど、或いは、初期文集合の長さが予想長さを超過するほど、重み閾値は大きくなり、初期文集合に隣接した左文の重みWL及び右文の重みWRは、重み閾値と比較され、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが重み閾値以上である場合にのみ、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張は実行されない。従って、重み閾値は、初期文集合の長さと予想長さの間における比較の結果に従って動的に調節されうる。例えば、初期文集合の長さが予想長さよりもはるかに小さい場合には、重み閾値は、非常に小さくなり、その結果、左文の重みWL及び右文の重みWRは、重み閾値よりも大きくなる傾向を有し、その結果、左文及び/又は右文は、初期文集合内に拡張される傾向を有することになり、さもなければ、重み閾値は、非常に大きくなり、且つ、左文及び/又は右文は、多くのプロパティパラメータαiを含む場合にのみ、初期文集合内に拡張されうる。この方法で、初期文集合の長さを有効に制御することにより、予想長さに近づいた長さを有する最終文集合を取得しうる。
本実施形態の知識抽出システムにおいて、比較結果判定ユニット211は、冗長値を設定する冗長値設定装置221aを有しており、ここで、初期文集合の左拡張のケースにおいては、冗長値は、初期文集合に隣接した左文の長さの半分に設定され、且つ、初期文集合の右拡張のケースにおいては、冗長値は、初期文集合に隣接した右文の長さの半分に設定される。
実際的な用途において、左拡張においては、冗長値は、初期文集合に隣接した左文の長さのm倍の値として選択されてもよく、右拡張においては、冗長値は、初期文集合に隣接した右文の長さのm倍の値として選択されてもよく、好ましくは、mは、1未満の値である。mが0.5であるときには、本実施形態において提供されている方式となる。本実施形態の冗長値により、統計によれば、最終文集合は、予想長さに十分に近づくであろう。
実施形態9
実施形態6〜実施形態8のいずれかに基づいて、図4に示すように、本実施形態の知識抽出システムにおいては、文集合拡張ユニット22は、初期文集合用の左拡張文数閾値L及び初期文集合用の右拡張文数閾値Rを設定する閾値設定サブユニット226と、初期文集合内に左拡張された文の数をカウント及び出力する第1カウントサブユニット227aと、初期文集合内に右拡張された文の数をカウント及び出力する第2カウントサブユニット227bと、を更に有し、比較サブユニット223は、初期文集合内に左拡張された文の数を左拡張文数閾値Lと比較すると共に初期文集合内に右拡張された文の数を右拡張文数閾値Rと比較するべく、更に使用され、新しい文集合取得サブユニット224は、初期文集合内に左拡張された文の数がL以下であると共に/又は、初期文集合内に右拡張された文の数がR以下である場合に、且つ、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力するべく、更に使用され、最終文集合は、知識抽出モジュール3に出力される。
初期文集合の左及び/又は右拡張の文の数の制限を通じて、初期文集合の左及び/又は右拡張を妥当な範囲において更に制御することにより、最終的に抽出される文集合のチェック及び理解が容易になる。
好適な一実施形態として、本実施形態の知識抽出システムにおいて、初期文集合の左及び右拡張の両方を実行するケースにおいては、左拡張文数閾値Lは、6に設定され、且つ、右拡張文数閾値Rは、6に設定され、初期文集合の左拡張のみを実行するケースにおいては、左拡張文数閾値Lは、12に設定され、且つ、右拡張文数閾値Rは、0に設定され、初期文集合の右拡張のみを実行するケースにおいては、左拡張文数閾値Lは、0に設定され、且つ、右拡張文数閾値Rは、12に設定される。
実験によって実証されているように、左拡張文数閾値及び右拡張文数閾値を上述の値に設定するステップを通じて、知識抽出の結果における文の一貫性のみならず、最終文集合の長さの制御の観点においても、最良の効果が得られうる。
実施形態10
実施形態6〜実施形態9のいずれかに基づいて、図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って最終文集合重みを取得する文集合重み取得サブユニット228aであって、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、サブユニットと、最終文集合の長さを取得する文集合長さ取得サブユニット228bと、最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット228aであって、最終文集合重み密度K’=最終文集合重み/最終文集合の長さである、サブユニットと、を更に有する。
なお、最終文集合重み密度K’の計算においては、同一の基準が、最終文集合重み密度K’の計算においてそれぞれの最終文集合について採用される限り、最終文集合重みを最終文集合中の文の数によって除算することも可能であることに留意されたい。
上述の判定から、例えば、最終文集合は、プロパティパラメータα1、α3、α5を含み、重みV1、V3、V5を合算するステップを通じて、重み=V1+V3+V5が最終文集合について取得され、最終文集合の長さが300文字である場合に、最終文集合重み密度K’=(V1+V3+V5)/300であると判定される。最終文集合中の1つの文又は様々な文が複数のプロパティパラメータαiを含む場合には、その対応した重みは、一回又は複数回にわたって加算されうる。一般に、ユーザーの要件を充足するより良好な結果のためには、パラメータαiは、その対応した重みViが発生する回数にわたって加算されうる。
或いは、この代わりに、文集合重み計算の一代替方式は、Σβiiであり、ここで、βiiは、文集合中の文中に存在しているプロパティαiによって寄与される値であり、βiは、プロパティαiのフィールド特性重みである。プロパティαiのフィールド特性重みは、フィールド文書を使用したトレーニングを通じて取得されうる。すべてのβiが1であるときには、本実施形態において使用されている方式となる。本実施形態は、最終文集合重みを取得する方法を提供するのみである。同一の方法が、文集合中のすべての文用の重みを算出するべく使用される限り、従来技術において存在している文重みを算出するその他の方法が採用されうる。
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合を重複除外し、且つ、次いで、最終文集合を出力する最終文集合重複除外及び出力ユニット31、を有する。
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去した後に、最終文集合を出力する最終文集合除去及び出力ユニット32、を更に有する。
本実施形態の知識抽出システムにおいて、知識抽出モジュール3は、最終文集合をソート及び出力する最終文集合ソート及び出力ユニット33であって、最終文集合が、それぞれの最終文集合の重み密度K’に従ってソートされ、且つ、次いで、出力される、ユニット、を更に有する。
本実施形態の知識抽出システムにおいては、すべての最終文集合を重複除外するステップを通じて、重複したコンテンツの読取りに起因した時間の浪費が防止されうるように、最終文集合重複除外及び出力ユニット31により、取得された最終文集合のすべてを重複除外することにより、重複した知識情報の出力が回避されており、最終文集合除去及び出力ユニット32によって最終文集合用の最小長さを設定し、且つ、最小長さ未満の長さを有する最終文集合を除去するステップを通じて、出力されるそれぞれの最終文集合中に、より多くの知識情報が含まれ、これにより、ユーザーによる問合せの要件が充足され、最終文集合ソート及び出力ユニット33により、それぞれの最終文集合の重み密度K’に従って最終文集合をソート及び出力するステップを通じて、ユーザーは、抽出された最終文集合を選択的に読み取ってもよい。例えば、重み密度Kに従って、最終文集合は、降順にソートされ、且つ、次いで、出力される。ユーザーは、ユーザーによる問合せのための時間が低減されうるように、望ましい知識情報を取得するべく、最初の少ない数の最終文集合を読み取ることのみが必要とされる。
また、本開示は、コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体を提供し、方法は、初期文集合を取得するステップであって、文集合は、1つ又は複数の文を含む、ステップと、初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する、ステップと、知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムのプロダクトとして提供することができることを理解すべきである。従って、本出願は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態、又はソフトウェアとハードウェアを組み合わせた実施形態の形態を使用することができる。更には、本出願は、コンピュータによって実行可能なプログラミングコードを有する1つ又は複数の記憶媒体(限定を伴うことなしに、ディスクメモリ、CD−ROM、光メモリなどを含む)上において実行されるコンピュータプログラムプロダクトの形態を使用することもできる。
本出願は、本発明の実施形態による方法、機器(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロックダイアグラムを参照して記述されている。フローチャート及び/又はブロックダイアグラム中のそれぞれのフロー及び/又はブロックのみならず、フローチャート及び/又はブロックダイアグラム中のフロー及び/又はブロックの組合せは、コンピュータプログラム命令を通じて実現可能であることを理解されたい。このようなコンピュータプログラム命令は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現する装置が、コンピュータ又はプログラム可能なデータ処理機器の任意のその他のプロセッサによって実行される命令によって生成されるように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、組込み型プロセッサ、又はプログラム可能なデータ処理機器の任意のその他のプロセッサに提供されることができる。
また、このようなコンピュータプログラム命令は、コンピュータの可読メモリ内において保存されたコマンドがコマンド装置のプロダクトを生成するように、特定のスタイルにおける動作にコンピュータ又はその他のプログラム可能なデータ処理機器を導きうるコンピュータの可読メモリ内に保存可能であり、このような命令装置は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つ又は複数のブロック内に規定されている機能を実現することができる。
また、このようなコンピュータプログラム命令は、コンピュータ又はその他のプログラム機器によって実行される命令が、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現するように、コンピュータ又はその他のプログラム可能な機器上において一連の動作ステップを実行してコンピュータによって実現されるプロセスを生成するように、コンピュータ又はその他のプログラム可能なデータ処理機器上に読み込むこともできる。
以上、本出願の好適な実施形態について説明したが、当業者であれば、基本的な創造的概念を理解すれば、これらの実施形態の更なる変更及び変形を実施することができる。従って、添付の請求項は、好適な実施形態と、本出願の範囲内のすべての変更及び変形と、を包含するべく解釈されることを意図している。

Claims (19)

  1. コンピュータによって実行される知識抽出方法であって、前記コンピュータは、
    初期文集合を取得するステップであって、前記初期文集合は、1つ又は複数の文を含む、ステップと、
    前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する、ステップと、
    知識を抽出するステップであって、拡張の後に最終的に取得された前記文集合を出力して知識抽出を実現する、ステップと、
    実行し、
    前記初期文集合を拡張するステップは、
    比較結果Fを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Fをする判定するステップであって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、ステップを有する、
    ことを特徴とする知識抽出方法。
  2. 請求項1に記載の知識抽出方法であって、前記初期文集合を拡張するステップは、
    重み閾値を設定するステップであって、前記重み閾値は、前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って、前記初期文集合について設定される、ステップと、
    前記文集合を拡張するステップであって、前記処理文集合を拡張している間に、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張するステップと、
    を有し、
    且つ/又は、
    前記初期文集合を取得するステップは、
    テキストを文に分割するステップと、
    I個の連続した文によって初期文集合を形成するステップであって、Iは、1以上の整数である、ステップ、
    を有し、
    且つ/又は、
    前記知識を抽出するステップは、
    前記最終文集合を重複除外及び出力するステップであって、前記最終文集合は、重複除外され、且つ、次いで、出力される、ステップ、
    及び/又は、
    前記最終文集合を除去及び出力するステップであって、最小長さが前記最終文集合用に設定され、且つ、前記最小長さ未満の長さを有する前記最終文集合が除去される、ステップ、
    及び/又は
    前記最終文集合をソート及び出力するステップであって、前記最終文集合は、前記最終文集合のそれぞれの重み密度K’に従ってソートされ、且つ、次いで、出力される、ステップ、
    を更に有する、
    ことを特徴とする知識抽出方法。
  3. 請求項2に記載の知識抽出方法であって、前記重み閾値を設定するステップは
    重み閾値を判定するステップであって、Fが1以上であるときの前記重み閾値と、Fが1未満であるときの前記重み閾値と、である、ステップ
    を有し
    且つ/又は、
    前記文集合を拡張するステップは、
    初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、
    左文の重み及び/又は右文の重みを取得するステップであって、前記初期文集合に隣接した前記左文の重みWL及び/又は前記右文の重みWRは、前記初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って取得される、ステップと、
    前記初期文集合を左拡張及び/又は右拡張するステップであって、前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、さもなければ、前記初期文集合に対して拡張は実行されない、ステップと、
    最終文集合を取得するステップであって、前記新しい文集合が初期文集合として使用され、且つ、前記最終文集合を取得するように、前記初期文集合がもはや拡張されえない時点まで、前記左文の重み及び/又は右文の重みを取得するステップ及び前記初期文集合を左拡張及び/又は右拡張するステップが反復される、ステップと、
    ループ拡張ステップであって、すべての最終文集合を取得するように、前記初期文集合を選択するステップから前記最終文集合を取得するステップまでを通じて、それぞれの初期文集合が拡張される、ステップと、
    を更に有すること特徴とする知識抽出方法。
  4. 請求項3に記載の知識抽出方法であって、前記重み閾値を判定するステップは、
    Fが1以上であるときに、前記重み閾値=(K/F)/Gであり、
    Fが1未満であるときに、前記重み閾値=(K/F)*Gであり、
    Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度であることを特徴とする知識抽出方法。
  5. 請求項4に記載の知識抽出方法であって、前記閾値調節係数Gは、5≦G≦30の範囲であることを特徴とする知識抽出方法。
  6. 請求項1乃至5のいずれか一項に記載の知識抽出方法であって、プロパティの組を判定するステップであって、前記プロパティの組は、N個のプロパティパラメータαiと、前記プロパティパラメータαiに対応した重みviと、を含み、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、ステップ、
    式K=Σvi/Nを使用してプロパティ重み密度取得するステップ、
    且つ/又は、
    最終文集合重みを取得するステップであって、最終文集合重みは、前記最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って取得され、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、ステップ、
    前記最終文集合重みに従って最終文集合重み密度を取得するステップであって、最終文集合重み密度K’=前記最終文集合重み/前記最終文集合の長さである、ステップ、
    を更に有することを特徴とする知識抽出方法。
  7. 請求項3乃至6のいずれか一項に記載の知識抽出方法であって、前記比較結果Fを判定するステップにおいて、
    前記初期文集合の左拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、
    前記初期文集合の右拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、
    ことを特徴とする知識抽出方法。
  8. 請求項3又は7に記載の知識抽出方法であって、前記文集合拡張のステップは、
    左及び/又は右拡張用の文数閾値を設定するステップであって、前記左拡張文数閾値は、Lであり、且つ、前記右拡張文数閾値は、Rである、ステップ、
    を更に有し、
    前記初期文集合を左拡張及び/又は右拡張するステップ及び前記最終文集合を取得するステップにおいて、前記初期文集合の左拡張用の前記文の数が前記左拡張文数閾値Lを上回っているときに、左拡張は、前記初期文集合に対してもはや実行されず、前記初期文集合の右拡張用の前記文の数が前記右拡張文数閾値Rを上回っているときに、右拡張は、前記初期文集合に対してもはや実行されないことを特徴とする知識抽出方法。
  9. 請求項8に記載の知識抽出方法であって、前記左及び/又は右拡張用の文数閾値を設定するステップにおいて、前記初期文集合の左及び右拡張の両方のケースにおいては、前記左拡張文数閾値Lは、6に設定され、且つ、前記右拡張文数閾値Rは、6に設定され、前記初期文集合の左拡張のみのケースにおいては、前記左拡張文数閾値Lは、12に設定され、且つ、前記右拡張文数閾値Rは、0に設定され、前記初期文集合の右拡張のみのケースにおいては、左拡張文数閾値Lは、0に設定され、且つ、前記右拡張文数閾値Rは、12に設定されることを特徴とする知識抽出方法。
  10. 請求項3乃至9のいずれか一項に記載の知識抽出方法であって、前記左文の重み及び/又は右文の重みを取得するステップにおいて、
    前記重みWLは、前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計であり、
    前記重みWRは、前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計であることを特徴とする知識抽出方法。
  11. 知識抽出システムであって、
    初期文集合を取得する初期文集合取得モジュール(1)であって、前記文集合は、1つ又は複数の文を含む、モジュールと、
    前記初期文集合取得モジュール(1)によって取得された前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する初期文集合拡張モジュール(2)と、
    前記初期文集合拡張モジュール(2)によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール(3)と、
    有し、
    初期文集合拡張モジュール(2)は、
    前記初期文集合の長さを前記予想長さと比較した前記結果Fを判定する比較結果判定サブユニット(211)であって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、サブユニットを有する、
    ことを特徴とするシステム。
  12. 請求項11に記載の知識抽出システムであって、前記初期文集合拡張モジュール(2)は、
    前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って前記初期文集合用の重み閾値を設定する重み閾値設定ユニット(21)と、
    前記初期文集合の拡張において、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張する文集合拡張ユニット(22)と、
    を有し、
    且つ/又は、
    前記初期文集合取得モジュール(1)は、
    文書を文に分割する文分割ユニット(11)と、
    I個の連続した文によって前記初期文集合を構築する抽出ユニット(12)であって、Iは、1以上の整数である、ユニットと、
    を有し、
    且つ/又は、
    前記知識抽出モジュール(3)は、
    前記最終文集合を重複除外し、且つ、次いで、前記最終文集合を出力する最終文集合重複除外及び出力ユニット(31)、
    を有し、
    且つ/又は、
    前記知識抽出モジュール(3)は、
    前記最終文集合用の最小長さを設定し、且つ、前記最小長さ未満の長さを有する前記最終文集合を除去した後に前記最終文集合を出力する最終文集合除去及び出力ユニット(32)、
    及び/又は、
    最終文集合をソート及び出力する最終文集合ソート及び出力ユニット(33)であって、最終文集合は、それぞれの最終文集合の前記重み密度K’に従って、ソートされ、且つ、次いで、出力される、ユニット、
    を更に有することを特徴とする知識抽出システム。
  13. 請求項12に記載の知識抽出システムであって、前記重み閾値設定ユニット(21)は
    重み閾値を判定する重み閾値判定サブユニット(212)であって、Fが1以上であるときの重み閾値は、Fが1未満であるときの重み閾値未満である、サブユニット
    を有し、
    且つ/又は、
    前記文集合拡張ユニット(22)は、
    前記初期文集合取得モジュール1から拡張用の初期文集合を選択する初期文集合選択サブユニット(221)と、
    前記初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って前記初期文集合に隣接した前記左文の重みWL及び/又は前記右文の重みWRを取得する文重み取得サブユニット(222)と、
    前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRを前記重み閾値と比較する比較サブユニット(223)と、
    前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、最終文集合を取得するように、前記初期文集合に対して拡張がもはや実行されない時点まで、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット(222)に出力する新しい文集合取得サブユニット(224)であって、前記最終文集合は、前記知識抽出モジュール(3)に出力される、サブユニットと、
    前記新しい文集合取得サブユニット(224)が最終文集合を取得した後に、前記初期文集合取得モジュール(1)から拡張用の別の初期文集合を選択するように、前記初期文集合選択サブユニット(221)を制御するループ拡張サブユニット(225)と、
    を有することを特徴とする知識抽出システム。
  14. 請求項13に記載の知識抽出システムであって、前記重み閾値判定サブユニット(212)は、
    閾値調節係数Gを設定及び出力する閾値調節係数設定装置(212a)であって、Gは、1を上回る値である、装置と、
    プロパティ重み密度Kを取得及び出力するプロパティ重み密度取得装置(212b)と、
    前記閾値調節係数設定装置(212a)、前記プロパティ重み密度取得装置(212b)、及び比較結果判定ユニット(211)の出力に従って重み閾値を取得及び出力する重み閾値取得装置(212c)であって、Fが1以上であるときに、前記重み閾値=(K/F)/Gであり、Fが1未満であるときに、前記重み閾値=(K/F)*Gであり、Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度である、装置と、
    を有し、
    且つ/又は、
    前記比較結果判定ユニット(211)は、
    冗長値を設定する冗長値設定装置(211a)であって、前記初期文集合の左拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、前記初期文集合の右拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、装置、
    を有し、
    且つ/又は、
    前記文重み取得サブユニット(222)は、
    前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して前記左文の重みWLを取得する第1重み取得装置(222a)と、
    前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して前記右文の重みWRを取得する第2重み取得装置(222b)と、
    を有することを特徴とする知識抽出システム。
  15. 請求項11乃至14のいずれか一項に記載の知識抽出システムであって、N個のプロパティパラメータαi及び前記プロパティパラメータαiに対応した重みviを含むプロパティの組を保存するプロパティセットモジュール(4)であって、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、モジュールを更に有し、
    前記プロパティ重み密度取得装置(212b)は、式K=Σvi/Nを使用してプロパティ重み密度Kを取得することを特徴とする知識抽出システム。
  16. 請求項13又は15に記載の知識抽出システムであって、前記文集合拡張ユニット(22)は、
    前記初期文集合用の左拡張文数閾値L及び/又は前記初期文集合用の右拡張文数閾値Rを設定する閾値設定サブユニット(226)と、
    前記初期文集合内に左拡張された文の数をカウント及び出力する第1カウントサブユニット(227a)と、
    前記初期文集合内に右拡張された文の数をカウント及び出力する第2カウントサブユニット(227b)と、
    を更に有し、
    前記比較サブユニット(223)は、前記初期文集合内に左拡張された前記文の数を前記左拡張文数閾値Lと比較し、且つ、前記初期文集合内に右拡張された前記文の数を前記右拡張文数閾値Rと比較するべく、更に使用され、
    前記新しい文集合取得サブユニット(224)は、前記初期文集合内に左拡張された前記文の数がL以下であると共に/又は前記初期文集合内に右拡張された前記文の数がR以下であり、且つ、前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、最終文集合を取得するように、拡張が前記初期文集合に対してもはや実行されない時点まで、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット(222)に出力するべく、更に使用され、前記最終文集合は、前記知識抽出モジュール(3)に出力されることを特徴とする知識抽出システム。
  17. 請求項16の記載の知識抽出システムであって、前記初期文集合の左及び右拡張の両方を実行するケースにおいては、前記閾値設定サブユニット(226)は、前記左拡張文数閾値Lを6に設定し、且つ、前記右拡張文数閾値Rを6に設定し、前記初期文集合の左拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを12に設定し、且つ、前記右拡張文数閾値Rを0に設定し、前記初期文集合の右拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを0に設定し、且つ、前記右拡張文数閾値Rを12に設定することを特徴とする知識抽出システム。
  18. 請求項16乃至17のいずれか一項に記載の知識抽出システムであって、前記文集合拡張ユニット(22)は、
    前記最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って最終文集合重みを取得する文集合重み取得サブユニット(228a)であって、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、サブユニットと、
    前記最終文集合の長さを取得する文集合長さ取得サブユニット(228b)と、
    前記最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット(228c)であって、前記最終文集合重み密度K’=前記最終文集合重み/前記最終文集合の長さである、サブユニットと、
    を更に有することを特徴とする知識抽出システム。
  19. コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体であって、
    前記方法は、
    初期文集合を取得するステップであって、前記初期文集合は、1つ又は複数の文を含む、ステップと、
    前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき初期文集合を判定する、ステップと、
    知識を抽出するステップであって、拡張の後に最終的に取得された最終文集合を出力して知識抽出を実現する、ステップと、を有し、
    前記初期文集合を拡張するステップは、
    比較結果Fを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Fをする判定するステップであって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、ステップを有する、
    コンピュータ可読媒体。
JP2016518163A 2013-09-29 2013-12-06 知識抽出方法及びシステム Expired - Fee Related JP6321787B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310456958.7 2013-09-29
CN201310456958.7A CN104216934B (zh) 2013-09-29 2013-09-29 一种知识抽取方法及系统
PCT/CN2013/088777 WO2015043076A1 (zh) 2013-09-29 2013-12-06 一种知识抽取方法及系统

Publications (2)

Publication Number Publication Date
JP2016538616A JP2016538616A (ja) 2016-12-08
JP6321787B2 true JP6321787B2 (ja) 2018-05-09

Family

ID=52098429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016518163A Expired - Fee Related JP6321787B2 (ja) 2013-09-29 2013-12-06 知識抽出方法及びシステム

Country Status (5)

Country Link
US (1) US20160217376A1 (ja)
EP (1) EP3057000A4 (ja)
JP (1) JP6321787B2 (ja)
CN (1) CN104216934B (ja)
WO (1) WO2015043076A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512238B (zh) * 2015-11-30 2019-06-04 北大方正集团有限公司 一种基于目标知识点的句群抽取方法及装置
CN106156286B (zh) * 2016-06-24 2019-09-17 广东工业大学 面向专业文献知识实体的类型抽取系统及方法
CN109189848B (zh) * 2018-09-19 2023-05-30 平安科技(深圳)有限公司 知识数据的抽取方法、系统、计算机设备和存储介质
CN109523127A (zh) * 2018-10-17 2019-03-26 平安科技(深圳)有限公司 基于大数据分析的员工培训评测方法及相关设备
CN111581363B (zh) * 2020-04-30 2023-08-29 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3594701B2 (ja) * 1995-07-19 2004-12-02 株式会社リコー キーセンテンス抽出装置
JP3775239B2 (ja) * 2001-05-16 2006-05-17 日本電信電話株式会社 テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体
CN1560762A (zh) * 2004-02-26 2005-01-05 上海交通大学 基于字同现频率的主题抽取方法
US20070078670A1 (en) * 2005-09-30 2007-04-05 Dave Kushal B Selecting high quality reviews for display
JP2008077252A (ja) * 2006-09-19 2008-04-03 Ricoh Co Ltd 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN100501745C (zh) * 2007-02-15 2009-06-17 刘二中 电子文本处理与检索的便捷方法和系统
JP4810469B2 (ja) * 2007-03-02 2011-11-09 株式会社東芝 検索支援装置、プログラム及び検索支援システム
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
JP4873738B2 (ja) * 2007-07-09 2012-02-08 日本電信電話株式会社 テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP4931958B2 (ja) * 2009-05-08 2012-05-16 日本電信電話株式会社 テキスト要約方法、その装置およびプログラム
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
JP5235918B2 (ja) * 2010-01-21 2013-07-10 日本電信電話株式会社 テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
US9183288B2 (en) * 2010-01-27 2015-11-10 Kinetx, Inc. System and method of structuring data for search using latent semantic analysis techniques
US20110225259A1 (en) * 2010-03-12 2011-09-15 GM Global Technology Operations LLC System and method for communicating software applications to a motor vehicle
JP5538185B2 (ja) * 2010-11-12 2014-07-02 日本電信電話株式会社 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
KR101522837B1 (ko) * 2010-12-16 2015-05-26 한국전자통신연구원 대화 방법 및 이를 위한 시스템
JP5043209B2 (ja) * 2011-03-04 2012-10-10 楽天株式会社 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体
CN102693219B (zh) * 2012-06-05 2014-11-05 苏州大学 一种中文事件的抽取方法及系统
KR101609184B1 (ko) * 2014-05-27 2016-04-06 네이버 주식회사 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템
US9886422B2 (en) * 2014-08-06 2018-02-06 International Business Machines Corporation Dynamic highlighting of repetitions in electronic documents
US10438219B2 (en) * 2017-06-30 2019-10-08 Dual Stream Technology, Inc. From sentiment to participation
US10127323B1 (en) * 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
US20190073602A1 (en) * 2017-09-06 2019-03-07 Dual Stream Technology, Inc. Dual consex warning system

Also Published As

Publication number Publication date
CN104216934B (zh) 2018-02-13
US20160217376A1 (en) 2016-07-28
EP3057000A1 (en) 2016-08-17
WO2015043076A1 (zh) 2015-04-02
CN104216934A (zh) 2014-12-17
JP2016538616A (ja) 2016-12-08
EP3057000A4 (en) 2017-04-05

Similar Documents

Publication Publication Date Title
JP6321787B2 (ja) 知識抽出方法及びシステム
US9767193B2 (en) Generation apparatus and method
JP2016531355A5 (ja)
EP3196781A1 (en) Method and apparatus for deleting duplicate data
KR101617696B1 (ko) 데이터 정규표현식의 마이닝 방법 및 장치
KR20160148703A (ko) 클러스터링 저장 방법 및 장치
CN105989015B (zh) 一种数据库扩容方法和装置以及访问数据库的方法和装置
CN105404677B (zh) 一种基于树形结构的检索方法
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
Benko Data deduplication in Slovak corpora
KR101842420B1 (ko) 정보 처리 장치 및 데이터 관리 방법
Lv et al. CacBDD: A BDD package with dynamic cache management
US20200387815A1 (en) Building training data and similarity relations for semantic space
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
JP6773115B2 (ja) 類似データ検索装置、類似データ検索方法および記録媒体
US10747725B2 (en) Compressing method, compressing apparatus, and computer-readable recording medium
JP4575064B2 (ja) 情報検索装置
JP7099316B2 (ja) 類似度演算装置、方法、およびプログラム
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN104932982A (zh) 一种消息访存的编译方法及相关装置
Heule et al. Clausal Proof Compression.
JP6005583B2 (ja) 検索装置、検索方法および検索プログラム
JPWO2013172309A1 (ja) ルール発見システムと方法と装置並びにプログラム
CN116361469B (zh) 一种基于预训练模型的话题生成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180405

R150 Certificate of patent or registration of utility model

Ref document number: 6321787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees