JP6321787B2 - 知識抽出方法及びシステム - Google Patents
知識抽出方法及びシステム Download PDFInfo
- Publication number
- JP6321787B2 JP6321787B2 JP2016518163A JP2016518163A JP6321787B2 JP 6321787 B2 JP6321787 B2 JP 6321787B2 JP 2016518163 A JP2016518163 A JP 2016518163A JP 2016518163 A JP2016518163 A JP 2016518163A JP 6321787 B2 JP6321787 B2 JP 6321787B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentence set
- initial
- weight
- final
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 127
- 238000000034 method Methods 0.000 claims description 47
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本実施形態においては、図1に示すように、知識抽出法について説明するが、方法は、
S102:初期文集合を取得するステップであって、初期文集合は、1つ又は複数の文を含む、ステップと、
S104:初期文集合を拡張するステップであって、初期文集合の長さを予想長さと比較し、比較結果に従って拡張するべき初期文集合を判定する、ステップと、
S106:知識を抽出するステップであって、拡張の後に最終的に取得された文集合を出力して知識抽出を実現する、ステップと、を有する。
実施形態1に基づいて、図2に示す本実施形態の知識抽出方法においては、重み閾値を設定するステップは、比較結果Fを判定するステップであって、初期文集合の長さを予想長さと比較した結果F=予想長さ/(初期文集合の長さ+冗長値)を判定するステップと、重み閾値を判定するステップであって、Fが1以上であるときの重み閾値、Fが1未満であるときの重み閾値であって、一実施形態において、重み閾値を判定するステップで、Fが1以上であるときは、重み閾値=(K/F)/Gであり、Fが1未満であるときは、重み閾値=(K/F)*Gであり、ここで、Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度であり、任意の選択として、閾値調節係数Gは、5≦G≦30である、ステップと、を有する。
実施形態1及び実施形態2に基づいて、図2に示す本実施形態の知識抽出方法において、文集合拡張のステップは、初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って左文の重み及び右文の重みを取得し、これにより、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得するステップと、初期文集合を左拡張及び/又は右拡張するステップであって、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが、重み閾値以上である場合に、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、さもなければ、初期文集合に対して拡張が実行されない、ステップと、最終文集合を取得するステップであって、新しい文集合が初期文集合として使用され、且つ、最終文集合を取得するために、初期文集合がもはや拡張されえない時点まで、左文の重み及び右文の重みを取得するステップ及び初期文集合を左拡張及び/又は右拡張するステップが反復される、ステップと、ループ拡張ステップであって、すべての最終文集合を取得するために、それぞれの初期文集合が、初期文集合を選択するステップから最終文集合を取得するステップまでを通じて拡張される、ステップと、を更に有する。
実施形態1〜実施形態3のいずれかに基づいて、図2に示すように、本実施形態の知識抽出方法においては、文集合拡張のステップは、左及び/又は右拡張用の文数閾値を設定するステップであって、左拡張文数閾値は、Lであり、且つ、右拡張文数閾値は、Rである、ステップ、を更に有する。
実施形態1〜実施形態4のいずれかに基づいて、本実施形態の知識抽出方法は、最終文集合重みを取得するステップであって、最終文集合重みは、最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って取得され、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、ステップと、最終文集合重み密度を取得するステップであって、最終文集合重み密度K’=最終文集合重み/最終文集合重みに応じた最終文集合の長さである、ステップと、を更に有する。
本実施形態は、図3に示す知識抽出システムを提供し、システムは、初期文集合を取得する初期文集合取得モジュール1であって、文集合は、1つ又は複数の文を含む、モジュールと、初期文集合取得モジュール1によって取得された初期文集合の長さを予想長さと比較し、比較結果に従って、拡張するべき初期文集合を判定する初期文集合拡張モジュール2と、初期文集合拡張モジュール2によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール3と、を含む。
実施形態6に基づいて、図4に示す本実施形態の知識抽出システムにおいては、重み閾値設定ユニット21は、予想長さとの間における初期文集合の長さの比較の結果Fを判定する比較結果判定サブユニット211であって、F=予想長さ/(初期文集合の長さ+冗長値)である、サブユニットと、重み閾値を判定する重み閾値判定サブユニット212であって、Fが1以上であるときの重み閾値は、Fが1未満であるときの重み閾値未満である、サブユニットと、を有する。
実施形態6又は実施形態7に基づいて、図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、初期文集合取得モジュール1から拡張用の初期文集合を選択する初期文集合選択サブユニット221と、初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを取得する文重み取得サブユニット222と、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRを重み閾値と比較する比較サブユニット223と、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力する新しい文集合取得サブユニット224であって、最終文集合は、知識抽出モジュール3に出力される、サブユニットと、新しい文集合取得サブユニット224が最終文集合を取得した後に、初期文集合取得モジュール1から拡張用の別の初期文集合を選択するように、初期文集合選択サブユニット221を制御するループ拡張サブユニット225と、を更に有する。
実施形態6〜実施形態8のいずれかに基づいて、図4に示すように、本実施形態の知識抽出システムにおいては、文集合拡張ユニット22は、初期文集合用の左拡張文数閾値L及び初期文集合用の右拡張文数閾値Rを設定する閾値設定サブユニット226と、初期文集合内に左拡張された文の数をカウント及び出力する第1カウントサブユニット227aと、初期文集合内に右拡張された文の数をカウント及び出力する第2カウントサブユニット227bと、を更に有し、比較サブユニット223は、初期文集合内に左拡張された文の数を左拡張文数閾値Lと比較すると共に初期文集合内に右拡張された文の数を右拡張文数閾値Rと比較するべく、更に使用され、新しい文集合取得サブユニット224は、初期文集合内に左拡張された文の数がL以下であると共に/又は、初期文集合内に右拡張された文の数がR以下である場合に、且つ、初期文集合に隣接した左文の重みWL及び/又は右文の重みWRが重み閾値以上である場合に、最終文集合を取得するように、拡張がもはや初期文集合に対して実行されない時点まで、左文及び/又は右文を初期文集合内に拡張して新しい文集合を形成し、且つ、その新しい文集合を初期文集合として文重み取得サブユニット222に出力するべく、更に使用され、最終文集合は、知識抽出モジュール3に出力される。
実施形態6〜実施形態9のいずれかに基づいて、図4に示す本実施形態の知識抽出システムにおいて、文集合拡張ユニット22は、最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って最終文集合重みを取得する文集合重み取得サブユニット228aであって、最終文集合重みは、最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、サブユニットと、最終文集合の長さを取得する文集合長さ取得サブユニット228bと、最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット228aであって、最終文集合重み密度K’=最終文集合重み/最終文集合の長さである、サブユニットと、を更に有する。
Claims (19)
- コンピュータによって実行される知識抽出方法であって、前記コンピュータは、
初期文集合を取得するステップであって、前記初期文集合は、1つ又は複数の文を含む、ステップと、
前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する、ステップと、
知識を抽出するステップであって、拡張の後に最終的に取得された前記文集合を出力して知識抽出を実現する、ステップと、
を実行し、
前記初期文集合を拡張するステップは、
比較結果Fを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Fをする判定するステップであって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、ステップを有する、
ことを特徴とする知識抽出方法。 - 請求項1に記載の知識抽出方法であって、前記初期文集合を拡張するステップは、
重み閾値を設定するステップであって、前記重み閾値は、前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って、前記初期文集合について設定される、ステップと、
前記文集合を拡張するステップであって、前記処理文集合を拡張している間に、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張するステップと、
を有し、
且つ/又は、
前記初期文集合を取得するステップは、
テキストを文に分割するステップと、
I個の連続した文によって初期文集合を形成するステップであって、Iは、1以上の整数である、ステップ、
を有し、
且つ/又は、
前記知識を抽出するステップは、
前記最終文集合を重複除外及び出力するステップであって、前記最終文集合は、重複除外され、且つ、次いで、出力される、ステップ、
及び/又は、
前記最終文集合を除去及び出力するステップであって、最小長さが前記最終文集合用に設定され、且つ、前記最小長さ未満の長さを有する前記最終文集合が除去される、ステップ、
及び/又は
前記最終文集合をソート及び出力するステップであって、前記最終文集合は、前記最終文集合のそれぞれの重み密度K’に従ってソートされ、且つ、次いで、出力される、ステップ、
を更に有する、
ことを特徴とする知識抽出方法。 - 請求項2に記載の知識抽出方法であって、前記重み閾値を設定するステップは、
重み閾値を判定するステップであって、Fが1以上であるときの前記重み閾値と、Fが1未満であるときの前記重み閾値と、である、ステップ、
を有し、
且つ/又は、
前記文集合を拡張するステップは、
初期文集合を選択するステップであって、初期文集合が、拡張のために選択される、ステップと、
左文の重み及び/又は右文の重みを取得するステップであって、前記初期文集合に隣接した前記左文の重みWL及び/又は前記右文の重みWRは、前記初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って取得される、ステップと、
前記初期文集合を左拡張及び/又は右拡張するステップであって、前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、さもなければ、前記初期文集合に対して拡張は実行されない、ステップと、
最終文集合を取得するステップであって、前記新しい文集合が初期文集合として使用され、且つ、前記最終文集合を取得するように、前記初期文集合がもはや拡張されえない時点まで、前記左文の重み及び/又は右文の重みを取得するステップ及び前記初期文集合を左拡張及び/又は右拡張するステップが反復される、ステップと、
ループ拡張ステップであって、すべての最終文集合を取得するように、前記初期文集合を選択するステップから前記最終文集合を取得するステップまでを通じて、それぞれの初期文集合が拡張される、ステップと、
を更に有すること特徴とする知識抽出方法。 - 請求項3に記載の知識抽出方法であって、前記重み閾値を判定するステップは、
Fが1以上であるときに、前記重み閾値=(K/F)/Gであり、
Fが1未満であるときに、前記重み閾値=(K/F)*Gであり、
Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度であることを特徴とする知識抽出方法。 - 請求項4に記載の知識抽出方法であって、前記閾値調節係数Gは、5≦G≦30の範囲であることを特徴とする知識抽出方法。
- 請求項1乃至5のいずれか一項に記載の知識抽出方法であって、プロパティの組を判定するステップであって、前記プロパティの組は、N個のプロパティパラメータαiと、前記プロパティパラメータαiに対応した重みviと、を含み、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、ステップ、
式K=Σvi/Nを使用してプロパティ重み密度取得するステップ、
且つ/又は、
最終文集合重みを取得するステップであって、最終文集合重みは、前記最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って取得され、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、ステップ、
前記最終文集合重みに従って最終文集合重み密度を取得するステップであって、最終文集合重み密度K’=前記最終文集合重み/前記最終文集合の長さである、ステップ、
を更に有することを特徴とする知識抽出方法。 - 請求項3乃至6のいずれか一項に記載の知識抽出方法であって、前記比較結果Fを判定するステップにおいて、
前記初期文集合の左拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、
前記初期文集合の右拡張のケースにおいては、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、
ことを特徴とする知識抽出方法。 - 請求項3又は7に記載の知識抽出方法であって、前記文集合拡張のステップは、
左及び/又は右拡張用の文数閾値を設定するステップであって、前記左拡張文数閾値は、Lであり、且つ、前記右拡張文数閾値は、Rである、ステップ、
を更に有し、
前記初期文集合を左拡張及び/又は右拡張するステップ及び前記最終文集合を取得するステップにおいて、前記初期文集合の左拡張用の前記文の数が前記左拡張文数閾値Lを上回っているときに、左拡張は、前記初期文集合に対してもはや実行されず、前記初期文集合の右拡張用の前記文の数が前記右拡張文数閾値Rを上回っているときに、右拡張は、前記初期文集合に対してもはや実行されないことを特徴とする知識抽出方法。 - 請求項8に記載の知識抽出方法であって、前記左及び/又は右拡張用の文数閾値を設定するステップにおいて、前記初期文集合の左及び右拡張の両方のケースにおいては、前記左拡張文数閾値Lは、6に設定され、且つ、前記右拡張文数閾値Rは、6に設定され、前記初期文集合の左拡張のみのケースにおいては、前記左拡張文数閾値Lは、12に設定され、且つ、前記右拡張文数閾値Rは、0に設定され、前記初期文集合の右拡張のみのケースにおいては、左拡張文数閾値Lは、0に設定され、且つ、前記右拡張文数閾値Rは、12に設定されることを特徴とする知識抽出方法。
- 請求項3乃至9のいずれか一項に記載の知識抽出方法であって、前記左文の重み及び/又は右文の重みを取得するステップにおいて、
前記重みWLは、前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計であり、
前記重みWRは、前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータαiに対応した重みviの合計であることを特徴とする知識抽出方法。 - 知識抽出システムであって、
初期文集合を取得する初期文集合取得モジュール(1)であって、前記文集合は、1つ又は複数の文を含む、モジュールと、
前記初期文集合取得モジュール(1)によって取得された前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき前記初期文集合を判定する初期文集合拡張モジュール(2)と、
前記初期文集合拡張モジュール(2)によって最終的に取得された最終文集合を出力して知識抽出を実現する知識抽出モジュール(3)と、
を有し、
初期文集合拡張モジュール(2)は、
前記初期文集合の長さを前記予想長さと比較した前記結果Fを判定する比較結果判定サブユニット(211)であって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、サブユニットを有する、
ことを特徴とするシステム。 - 請求項11に記載の知識抽出システムであって、前記初期文集合拡張モジュール(2)は、
前記初期文集合の前記長さを前記予想長さと比較した前記結果に従って前記初期文集合用の重み閾値を設定する重み閾値設定ユニット(21)と、
前記初期文集合の拡張において、拡張するべき文の重みを前記重み閾値と比較し、且つ、前記比較結果に従って、前記初期文集合を拡張する文集合拡張ユニット(22)と、
を有し、
且つ/又は、
前記初期文集合取得モジュール(1)は、
文書を文に分割する文分割ユニット(11)と、
I個の連続した文によって前記初期文集合を構築する抽出ユニット(12)であって、Iは、1以上の整数である、ユニットと、
を有し、
且つ/又は、
前記知識抽出モジュール(3)は、
前記最終文集合を重複除外し、且つ、次いで、前記最終文集合を出力する最終文集合重複除外及び出力ユニット(31)、
を有し、
且つ/又は、
前記知識抽出モジュール(3)は、
前記最終文集合用の最小長さを設定し、且つ、前記最小長さ未満の長さを有する前記最終文集合を除去した後に前記最終文集合を出力する最終文集合除去及び出力ユニット(32)、
及び/又は、
最終文集合をソート及び出力する最終文集合ソート及び出力ユニット(33)であって、最終文集合は、それぞれの最終文集合の前記重み密度K’に従って、ソートされ、且つ、次いで、出力される、ユニット、
を更に有することを特徴とする知識抽出システム。 - 請求項12に記載の知識抽出システムであって、前記重み閾値設定ユニット(21)は、
重み閾値を判定する重み閾値判定サブユニット(212)であって、Fが1以上であるときの重み閾値は、Fが1未満であるときの重み閾値未満である、サブユニット、
を有し、
且つ/又は、
前記文集合拡張ユニット(22)は、
前記初期文集合取得モジュール1から拡張用の初期文集合を選択する初期文集合選択サブユニット(221)と、
前記初期文集合に隣接した左文及び/又は右文中に含まれているプロパティパラメータαi及び対応した重みviに従って前記初期文集合に隣接した前記左文の重みWL及び/又は前記右文の重みWRを取得する文重み取得サブユニット(222)と、
前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRを前記重み閾値と比較する比較サブユニット(223)と、
前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、最終文集合を取得するように、前記初期文集合に対して拡張がもはや実行されない時点まで、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット(222)に出力する新しい文集合取得サブユニット(224)であって、前記最終文集合は、前記知識抽出モジュール(3)に出力される、サブユニットと、
前記新しい文集合取得サブユニット(224)が最終文集合を取得した後に、前記初期文集合取得モジュール(1)から拡張用の別の初期文集合を選択するように、前記初期文集合選択サブユニット(221)を制御するループ拡張サブユニット(225)と、
を有することを特徴とする知識抽出システム。 - 請求項13に記載の知識抽出システムであって、前記重み閾値判定サブユニット(212)は、
閾値調節係数Gを設定及び出力する閾値調節係数設定装置(212a)であって、Gは、1を上回る値である、装置と、
プロパティ重み密度Kを取得及び出力するプロパティ重み密度取得装置(212b)と、
前記閾値調節係数設定装置(212a)、前記プロパティ重み密度取得装置(212b)、及び比較結果判定ユニット(211)の出力に従って重み閾値を取得及び出力する重み閾値取得装置(212c)であって、Fが1以上であるときに、前記重み閾値=(K/F)/Gであり、Fが1未満であるときに、前記重み閾値=(K/F)*Gであり、Gは、閾値調節係数であり、且つ、Gは、1を上回る値であり、Kは、プロパティ重み密度である、装置と、
を有し、
且つ/又は、
前記比較結果判定ユニット(211)は、
冗長値を設定する冗長値設定装置(211a)であって、前記初期文集合の左拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記左文の長さの半分に設定され、前記初期文集合の右拡張のケースにおいて、前記冗長値は、前記初期文集合に隣接した前記右文の長さの半分に設定される、装置、
を有し、
且つ/又は、
前記文重み取得サブユニット(222)は、
前記初期文集合に隣接した前記左文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して前記左文の重みWLを取得する第1重み取得装置(222a)と、
前記初期文集合に隣接した前記右文中に含まれているすべてのプロパティパラメータαiに対応した重みviを合算して前記右文の重みWRを取得する第2重み取得装置(222b)と、
を有することを特徴とする知識抽出システム。 - 請求項11乃至14のいずれか一項に記載の知識抽出システムであって、N個のプロパティパラメータαi及び前記プロパティパラメータαiに対応した重みviを含むプロパティの組を保存するプロパティセットモジュール(4)であって、Nは、正の整数であり、iは、整数であり、且つ、1≦i≦Nである、モジュールを更に有し、
前記プロパティ重み密度取得装置(212b)は、式K=Σvi/Nを使用してプロパティ重み密度Kを取得することを特徴とする知識抽出システム。 - 請求項13又は15に記載の知識抽出システムであって、前記文集合拡張ユニット(22)は、
前記初期文集合用の左拡張文数閾値L及び/又は前記初期文集合用の右拡張文数閾値Rを設定する閾値設定サブユニット(226)と、
前記初期文集合内に左拡張された文の数をカウント及び出力する第1カウントサブユニット(227a)と、
前記初期文集合内に右拡張された文の数をカウント及び出力する第2カウントサブユニット(227b)と、
を更に有し、
前記比較サブユニット(223)は、前記初期文集合内に左拡張された前記文の数を前記左拡張文数閾値Lと比較し、且つ、前記初期文集合内に右拡張された前記文の数を前記右拡張文数閾値Rと比較するべく、更に使用され、
前記新しい文集合取得サブユニット(224)は、前記初期文集合内に左拡張された前記文の数がL以下であると共に/又は前記初期文集合内に右拡張された前記文の数がR以下であり、且つ、前記初期文集合に隣接した前記左文の前記重みWL及び/又は前記右文の前記重みWRが前記重み閾値以上である場合に、最終文集合を取得するように、拡張が前記初期文集合に対してもはや実行されない時点まで、前記左文及び/又は前記右文を前記初期文集合内に拡張して新しい文集合を形成し、且つ、前記新しい文集合を初期文集合として前記文重み取得サブユニット(222)に出力するべく、更に使用され、前記最終文集合は、前記知識抽出モジュール(3)に出力されることを特徴とする知識抽出システム。 - 請求項16の記載の知識抽出システムであって、前記初期文集合の左及び右拡張の両方を実行するケースにおいては、前記閾値設定サブユニット(226)は、前記左拡張文数閾値Lを6に設定し、且つ、前記右拡張文数閾値Rを6に設定し、前記初期文集合の左拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを12に設定し、且つ、前記右拡張文数閾値Rを0に設定し、前記初期文集合の右拡張のみを実行するケースにおいては、前記左拡張文数閾値Lを0に設定し、且つ、前記右拡張文数閾値Rを12に設定することを特徴とする知識抽出システム。
- 請求項16乃至17のいずれか一項に記載の知識抽出システムであって、前記文集合拡張ユニット(22)は、
前記最終文集合中に含まれているプロパティパラメータαi及び対応した重みViに従って最終文集合重みを取得する文集合重み取得サブユニット(228a)であって、前記最終文集合重みは、前記最終文集合中のそれぞれの文中に含まれているすべてのプロパティパラメータαiの対応した重みViの合計である、サブユニットと、
前記最終文集合の長さを取得する文集合長さ取得サブユニット(228b)と、
前記最終文集合重みに従って最終文集合重み密度を取得する重み密度取得サブユニット(228c)であって、前記最終文集合重み密度K’=前記最終文集合重み/前記最終文集合の長さである、サブユニットと、
を更に有することを特徴とする知識抽出システム。 - コンピュータによって実行されたときに知識抽出方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体であって、
前記方法は、
初期文集合を取得するステップであって、前記初期文集合は、1つ又は複数の文を含む、ステップと、
前記初期文集合を拡張するステップであって、前記初期文集合の長さを予想長さと比較し、前記比較結果に従って、拡張するべき初期文集合を判定する、ステップと、
知識を抽出するステップであって、拡張の後に最終的に取得された最終文集合を出力して知識抽出を実現する、ステップと、を有し、
前記初期文集合を拡張するステップは、
比較結果Fを判定するステップであって、即ち、初期文集合の前記長さを前記予想長さと比較した前記結果Fをする判定するステップであって、F=前記予想長さ/(前記初期文集合の前記長さ+冗長値)である、ステップを有する、
コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310456958.7 | 2013-09-29 | ||
CN201310456958.7A CN104216934B (zh) | 2013-09-29 | 2013-09-29 | 一种知识抽取方法及系统 |
PCT/CN2013/088777 WO2015043076A1 (zh) | 2013-09-29 | 2013-12-06 | 一种知识抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016538616A JP2016538616A (ja) | 2016-12-08 |
JP6321787B2 true JP6321787B2 (ja) | 2018-05-09 |
Family
ID=52098429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016518163A Expired - Fee Related JP6321787B2 (ja) | 2013-09-29 | 2013-12-06 | 知識抽出方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160217376A1 (ja) |
EP (1) | EP3057000A4 (ja) |
JP (1) | JP6321787B2 (ja) |
CN (1) | CN104216934B (ja) |
WO (1) | WO2015043076A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512238B (zh) * | 2015-11-30 | 2019-06-04 | 北大方正集团有限公司 | 一种基于目标知识点的句群抽取方法及装置 |
CN106156286B (zh) * | 2016-06-24 | 2019-09-17 | 广东工业大学 | 面向专业文献知识实体的类型抽取系统及方法 |
CN109189848B (zh) * | 2018-09-19 | 2023-05-30 | 平安科技(深圳)有限公司 | 知识数据的抽取方法、系统、计算机设备和存储介质 |
CN109523127A (zh) * | 2018-10-17 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于大数据分析的员工培训评测方法及相关设备 |
CN111581363B (zh) * | 2020-04-30 | 2023-08-29 | 北京百度网讯科技有限公司 | 知识抽取方法、装置、设备及存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3594701B2 (ja) * | 1995-07-19 | 2004-12-02 | 株式会社リコー | キーセンテンス抽出装置 |
JP3775239B2 (ja) * | 2001-05-16 | 2006-05-17 | 日本電信電話株式会社 | テキスト分割方法及び装置及びテキスト分割プログラム及びテキスト分割プログラムを格納した記憶媒体 |
CN1560762A (zh) * | 2004-02-26 | 2005-01-05 | 上海交通大学 | 基于字同现频率的主题抽取方法 |
US20070078670A1 (en) * | 2005-09-30 | 2007-04-05 | Dave Kushal B | Selecting high quality reviews for display |
JP2008077252A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 |
CN101013421B (zh) * | 2007-02-02 | 2012-06-27 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN100501745C (zh) * | 2007-02-15 | 2009-06-17 | 刘二中 | 电子文本处理与检索的便捷方法和系统 |
JP4810469B2 (ja) * | 2007-03-02 | 2011-11-09 | 株式会社東芝 | 検索支援装置、プログラム及び検索支援システム |
US7899666B2 (en) * | 2007-05-04 | 2011-03-01 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
JP4873738B2 (ja) * | 2007-07-09 | 2012-02-08 | 日本電信電話株式会社 | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
JP4931958B2 (ja) * | 2009-05-08 | 2012-05-16 | 日本電信電話株式会社 | テキスト要約方法、その装置およびプログラム |
KR101266361B1 (ko) * | 2009-09-10 | 2013-05-22 | 한국전자통신연구원 | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 |
JP5235918B2 (ja) * | 2010-01-21 | 2013-07-10 | 日本電信電話株式会社 | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム |
US9183288B2 (en) * | 2010-01-27 | 2015-11-10 | Kinetx, Inc. | System and method of structuring data for search using latent semantic analysis techniques |
US20110225259A1 (en) * | 2010-03-12 | 2011-09-15 | GM Global Technology Operations LLC | System and method for communicating software applications to a motor vehicle |
JP5538185B2 (ja) * | 2010-11-12 | 2014-07-02 | 日本電信電話株式会社 | テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム |
KR101522837B1 (ko) * | 2010-12-16 | 2015-05-26 | 한국전자통신연구원 | 대화 방법 및 이를 위한 시스템 |
JP5043209B2 (ja) * | 2011-03-04 | 2012-10-10 | 楽天株式会社 | 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体 |
CN102693219B (zh) * | 2012-06-05 | 2014-11-05 | 苏州大学 | 一种中文事件的抽取方法及系统 |
KR101609184B1 (ko) * | 2014-05-27 | 2016-04-06 | 네이버 주식회사 | 사전 기능을 제공하는 방법과 시스템, 그리고 기록 매체 및 파일 배포 시스템 |
US9886422B2 (en) * | 2014-08-06 | 2018-02-06 | International Business Machines Corporation | Dynamic highlighting of repetitions in electronic documents |
US10438219B2 (en) * | 2017-06-30 | 2019-10-08 | Dual Stream Technology, Inc. | From sentiment to participation |
US10127323B1 (en) * | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
US20190073602A1 (en) * | 2017-09-06 | 2019-03-07 | Dual Stream Technology, Inc. | Dual consex warning system |
-
2013
- 2013-09-29 CN CN201310456958.7A patent/CN104216934B/zh not_active Expired - Fee Related
- 2013-12-06 US US15/025,566 patent/US20160217376A1/en not_active Abandoned
- 2013-12-06 JP JP2016518163A patent/JP6321787B2/ja not_active Expired - Fee Related
- 2013-12-06 WO PCT/CN2013/088777 patent/WO2015043076A1/zh active Application Filing
- 2013-12-06 EP EP13894286.7A patent/EP3057000A4/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
CN104216934B (zh) | 2018-02-13 |
US20160217376A1 (en) | 2016-07-28 |
EP3057000A1 (en) | 2016-08-17 |
WO2015043076A1 (zh) | 2015-04-02 |
CN104216934A (zh) | 2014-12-17 |
JP2016538616A (ja) | 2016-12-08 |
EP3057000A4 (en) | 2017-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6321787B2 (ja) | 知識抽出方法及びシステム | |
US9767193B2 (en) | Generation apparatus and method | |
JP2016531355A5 (ja) | ||
EP3196781A1 (en) | Method and apparatus for deleting duplicate data | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
KR20160148703A (ko) | 클러스터링 저장 방법 및 장치 | |
CN105989015B (zh) | 一种数据库扩容方法和装置以及访问数据库的方法和装置 | |
CN105404677B (zh) | 一种基于树形结构的检索方法 | |
CN109918658A (zh) | 一种从文本中获取目标词汇的方法及系统 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
Benko | Data deduplication in Slovak corpora | |
KR101842420B1 (ko) | 정보 처리 장치 및 데이터 관리 방법 | |
Lv et al. | CacBDD: A BDD package with dynamic cache management | |
US20200387815A1 (en) | Building training data and similarity relations for semantic space | |
KR102400689B1 (ko) | 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 | |
JP6773115B2 (ja) | 類似データ検索装置、類似データ検索方法および記録媒体 | |
US10747725B2 (en) | Compressing method, compressing apparatus, and computer-readable recording medium | |
JP4575064B2 (ja) | 情報検索装置 | |
JP7099316B2 (ja) | 類似度演算装置、方法、およびプログラム | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
CN104932982A (zh) | 一种消息访存的编译方法及相关装置 | |
Heule et al. | Clausal Proof Compression. | |
JP6005583B2 (ja) | 検索装置、検索方法および検索プログラム | |
JPWO2013172309A1 (ja) | ルール発見システムと方法と装置並びにプログラム | |
CN116361469B (zh) | 一种基于预训练模型的话题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6321787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |