JP6231668B2 - キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム - Google Patents
キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム Download PDFInfo
- Publication number
- JP6231668B2 JP6231668B2 JP2016518124A JP2016518124A JP6231668B2 JP 6231668 B2 JP6231668 B2 JP 6231668B2 JP 2016518124 A JP2016518124 A JP 2016518124A JP 2016518124 A JP2016518124 A JP 2016518124A JP 6231668 B2 JP6231668 B2 JP 6231668B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- search
- acquired
- current
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 96
- 230000008569 process Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 241001122767 Theaceae Species 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 235000019353 potassium silicate Nutrition 0.000 description 3
- NTHWMYGWWRZVTN-UHFFFAOYSA-N sodium silicate Chemical compound [Na+].[Na+].[O-][Si]([O-])=O NTHWMYGWWRZVTN-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101000695861 Arabidopsis thaliana Brefeldin A-inhibited guanine nucleotide-exchange protein 5 Proteins 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005211 surface analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態は、キーワード拡張方法を提供し、図1に示すように、本方法は以下のステップを有する。
(1)所定の初期キーワードで検索して、現在のキーワードを取得する。
(2)検索を通して取得された現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する。
所定のキーワードで記事レポジトリ中を検索して、高い関連性を有する記事を取得する。次に、高い関連性を有するこれらの記事について単語分割を実行する。単語分割の後にストップワードを削除する。所定のキーワードと同時に現れる同時出現単語を取得し、及び、これらの同時出現単語を検索を通して取得された単語として使用する。ここで、同時出現単語は、スライディングウィンドウ法を使用して取得されてもよい。
図3は、本発明の実施形態によるキーワード拡張システムの構造図である。
図3に示すように、キーワード拡張システムは、
(1) 所定の初期キーワードで検索して、現在のキーワードを取得する取得ユニット31を有する。本実施形態において、取得ユニットは、記事リポジトリ中の所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、検索を通して取得された各単語の出現数をそれぞれカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュールと、を有する。
個別の適用例は、以下により与えられる。
検索は、初期キーワード“コップ”で実行される。記事レポジトリ(500個の記事)は、単語“コップ”で検索され、且つ、一連のキーワード“水”、“ケトル”、“ティーカップ”、“水ディスペンサ”、“飲み物”は、上述の検索方法及びキーワードを取得する方法で取得される。
検索は、上記で取得された一連の単語で再び実行され、一連のキーワード“水”、“ティーカップ”、“ケトル”、“サーモスボトル”、“バケット”が取得される。
エラー40%は、上記2つの検索結果の比較を通して判定される。故に、検索は、キーワードとして上記の検索結果で更に実行され、“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”という結果が取得される。
エラー40%は、この検索結果と前の検索結果との比較を通して判定され、閾値20%を満たさず、そして、上記キーワードで検索処理をし続け、検索結果“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”を取得する。
20%未満のエラーは、この検索結果と前の検索結果の比較を通して判定され、閾値の基準を満たすので、検索処理は終了する。現在の検索の結果である“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”は、キーワード“カップ”の拡張の後にキーワードとして使用される。
本実施形態は、キーワード拡張方法を使用した分類コーパス注釈の方法を提供し、図2のフローチャートに示すように、以下のステップを有する。
ステップ202:各クラスについて1つ又は複数の初期主要キーワードを判定する。
ステップ204:初期主要キーワードで、上記に記載のキーワード拡張方法を使用して各クラスの拡張キーワードを取得する。
ステップ206:クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、分類コーパスを注釈する。
図4は、本発明の一実施形態による分類コーパス注釈システムの構造図である。
図4に示すように、キーワード拡張システムを使用した分類コーパス注釈のシステムは、各クラスについて1つ又は複数の初期主要キーワードを判定するキーワード判定ユニット41と、初期主要キーワードで、キーワード拡張システムを使用して各クラスの拡張キーワードを取得する、キーワード拡張ユニット42であって、所定の初期主要キーワードで検索して、現在のキーワードを取得する取得サブユニットと、検索を通して取得された現在のキーワードを次の検索の基礎として使用し、且つ、キーワード反復を通してループ検索を実行する、ループ検索サブユニットと、現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間でキーワードエラーが所定の閾値未満であるか否かを判定する、判定サブユニットであって、所定の閾値未満である場合は、ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、現在の検索で取得されたキーワードを拡張キーワードとして使用する、判定サブユニットと、を有する、キーワード拡張ユニット42と、クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、分類コーパスを注釈する、注釈ユニット43と、を有する。
キーワード拡張方法を使用した分類コーパス注釈方法は、1つの適用例を参照して説明される。
S1: 各クラスについて1つ又は複数の初期主要キーワードを判定する。
分類システムにおいて、3つのクラス{軍事、経済、スポーツ}が与えられる。各クラスについて1つ又は複数の初期主要キーワードが手動で判定される。“軍事”を例にとると、キーワード{戦争、難民、死傷者}は、初期主要キーワードとして判定される。全てのテキストレポジトリは、新聞及び定期刊行物データベースから選択された記事で構築されている。
S2: 初期主要キーワードの拡張を通して各クラスの拡張キーワードを取得する。
ステップS2において、各クラスの拡張キーワードは、反復的検索を通して取得され、以下のステップを有する。
S21: クラスの初期主要キーワードで、検索を通してこのクラスの拡張キーワードの候補を取得する。
S210: “軍事”クラスの初期主要キーワード{戦争、難民、死傷者}を選択する。
S211: 初期主要キーワード{戦争、難民、死傷者}で検索をし、且つ、これらの関連性に従って、最初の1000個の記事を取得する。
他の実施形態では、記事の数はn個であり、ここで、n≧2、nは整数である。nの値は、30≦n≦2000の範囲である。nの値は、50、100、500、700、1200、1700、2000及び他の異なる値を選択してもよく、且つ、ユーザの要望及びクラス特性に従って選択されてもよい。
S212:クラス“軍事”の1000個の記事について単語分割を実行し、且つ、ストップワードを削除する。
S22: 拡張キーワードの候補に変化が生じなくなるまで、取得された拡張キーワードの候補で検索して、その都度新しい主要キーワードを取得し、且つ、一連のキーワードとしてこれらを保存する。
S221: 拡張キーワードの候補の出現数をカウントし、且つ、これらの出現数の降順に拡張キーワードの候補をソートする。
S222: 最初の10個の拡張キーワードの候補を新しい主要キーワードとして選択する。
クラス”軍事”の初期主要キーワードの拡張を通して取得された10個のキーワードは、初期主要キーワードに基づき反復的方法で取得された拡張キーワード{難民、イラク、戦争、アフリカ、家、強制される、アフガニスタン、ヨルダン、戦闘、再定住}である。
S23: キーワードの組をチェックし、且つ、クラス特性に適合しないキーワードを削除して、このクラスの拡張キーワードを取得する。
ユーザが軍事問題を研究していると仮定すると、クラス”軍事”の特性に適合しないキーワード{家、再定住}は削除されてもよい。
キーワードの組のチェックを通して、幾つかのクラス特性に適合しないキーワードは、削除されてもよく、取得された拡張キーワードは、より正確になる。
S3: クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、注釈を実行するには、以下のステップを有する。
S31: 全テキストレポジトリ中を拡張キーワード{難民、イラク、戦争、アフリカ、強制される、アフガニスタン、ヨルダン、戦闘}で検索し、且つ、関連性の降順でソートする。
S32: 最初の1000個の記事をチェックし、且つ、分類コーパスを選択し、且つ、それを”軍事”として注釈する。
最初のK個の記事のチェックにおいて、幾つかのクラス特性に適合しない記事は、削除されてもよく、クラス特性に適合するその他残りの記事をこのクラスのコーパスとして注釈する。
本発明の分類コーパスを自動的に注釈する方法において、各検索で取得される記事の数を限定することを通して、処理すべき記事の数を減らし、処理速度が向上され得る。一方で、低い関連性を有する記事は、削除されてもよく、取得された新しい主要キーワードはより正確になる。
本発明の分類コーパスを自動的に注釈する方法において、拡張キーワードの検索を通して取得されたコーパスをチェックすることを通して、幾つかのクラス特性に合致しない記事を削除し、且つ、このクラスのコーパスとして残りの記事を注釈し、コーパスの注釈がより正確になる。
本実施形態は、分類コーパスを注釈する方法の別の特定の実施形態を提供する。
ステップ1: 分類システムにおいて、3つのクラス{軍事、経済、スポーツ}が与えられる。各クラスについて、1つ又は複数の初期主要キーワードを手動で判定する。“軍事”を例にとると、キーワード{戦争、難民、死傷者}は、初期主要キーワードとして判定される。全てのテキストレポジトリは、新聞及び定期刊行物データベースから選択された記事で構築される。
ステップ2: クラス”軍事”のために、初期主要キーワード{戦争、難民、死傷者}での全文検索を通して最初の1000個の記事を取得する。
ステップ3: 取得された1000個の記事について単語分割を実行し、且つ、ストップワードを削除する。
ステップ4: スライディングウィンドウ法を使用して、サイズ6のスライディングウィンドウ中のキーワードの周囲にあるキーワードを取得する。
ステップ5: キーワードの出現数をカウントし、且つ、これらの出現数の降順にキーワードをソートする。
ステップ6: ステップ5で取得されたキーワードから、最初の10個のキーワードを新しい主要キーワードとして選択する。
ステップ7: 最初の10個のキーワードに変化が生じなくなるまで、ステップ2からステップ6を繰り返す。即ち、最初の10個のキーワードが特定のキーワードの組に収束する。取得された10個のキーワードは、初期主要キーワードに基づき反復的方法で取得された拡張キーワード{難民、イラク、戦争、アフリカ、家、強制される、アフガニスタン、ヨルダン、死傷者、再定住}である。
ステップ8: 拡張キーワードを手動でチェックして、クラス特性に適合しないキーワード{家、再定住}を削除する。
ステップ9: 全テキストレポジトリ中をこのクラスに対応する拡張キーワード{難民、イラク、戦争、アフリカ、強制される、アフガニスタン、ヨルダン、戦闘}で検索して、最初の1000個の記事を取得し、このクラスのコーパスの候補を形成する。
ステップ10: これらの1000個の記事を手動でチェックして、このクラスのコーパスを選択する。
ステップ11: 全クラスについて、ステップ2からステップ10を繰り返して、分類システムにおいて各クラスの注釈コーパスを取得する。
Claims (15)
- キーワードに関する情報を保存する記憶部を有するコンピュータによって実行されるキーワード拡張方法であって、
所定の初期キーワードで検索して、現在のキーワードを取得するステップと、
検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する、ステップと、を有し、
前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間のキーワードエラーが所定の閾値未満である場合は、前記ループ検索ステップを終了し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用することを特徴とする方法。 - 請求項1に記載のキーワード拡張方法であって、現在のキーワードを取得する前記検索処理は、検索を通して取得された各単語の出現数をカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有することを特徴とする方法。
- 請求項1に記載のキーワード拡張方法であって、現在のキーワードを取得する前記検索処理は、検索を通して取得された単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有することを特徴とする方法。
- 請求項2又は3に記載のキーワード拡張方法であって、検索を通して取得された単語を取得する前記方法は、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有する前記記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された前記単語として使用する、ステップを有することを特徴とする方法。
- 請求項4に記載のキーワード拡張方法であって、前記キーワード拡張方法は、単語分割の後にストップワードを削除するステップと、前記所定のキーワードと同時に現れる同時出現単語を取得するステップと、及び、これらの同時出現単語を検索を通して取得された単語として使用するステップと、を更に有することを特徴とする方法。
- 請求項1乃至5のいずれか1項に記載のキーワード拡張方法であって、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合であること、
及び/又は、
前記所定のエラー閾値は、20%未満であること、
及び/又は、
前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定されること、
を特徴とする方法。 - 請求項6に記載のキーワード拡張方法であって、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得されたキーワードからそれぞれ取り出され、5≦n≦10であることを特徴とする方法。
- キーワードに関する情報を保存する記憶部を有するコンピュータによって実行される分類コーパスを注釈する方法であって、
各クラスについて1つ又は複数の初期主要キーワードを判定するステップと、
前記初期主要キーワードで、請求項1乃至7のいずれか1項に記載のキーワード拡張方法を使用して各クラスについて拡張キーワードを取得するステップと、
クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、ステップと、
を有することを特徴とする方法。 - キーワード拡張システムであって、
所定の初期キーワードで検索して、現在のキーワードを取得する取得ユニットと、
検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行するループ検索ユニットと、
前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間でキーワードエラーが所定の閾値未満であるか否かを判定する、判定ユニットであって、所定の閾値未満である場合は、前記ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する、判定ユニットと、
を有することを特徴とするシステム。 - 請求項9に記載のキーワード拡張システムであって、前記取得ユニットは、
記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、
検索を通して取得された各単語の出現数をそれぞれカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュールと、を有すること、
又は、
前記取得ユニットは、
記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、
検索を通して取得された前記単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、前記上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュール用の検索キーワード比較モジュールと、を有すること、
を特徴とするシステム。 - 請求項10に記載のキーワード拡張システムであって、前記検索単語取得モジュールは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、単語分割の後にストップワードを削除し、前記所定のキーワードと同時に現れる同時出現単語を取得し、及び、これらの同時出現単語を検索を通して取得された単語として使用することを特徴とするシステム。
- 請求項9乃至11のいずれか1項に記載のキーワード拡張システムであって、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合であること、
及び/又は、
前記所定のエラー閾値は、20%未満であること、
及び/又は、
前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定されること、
を特徴とするシステム。 - 請求項12に記載のキーワード拡張システムであって、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得された前記キーワードからそれぞれ取り出され、5≦n≦10であることを特徴とするシステム。
- 分類コーパス注釈システムであって、
各クラスについて1つ又は複数の初期主要キーワードを判定するキーワード判定ユニットと、
前記初期主要キーワードで、請求項9乃至13のいずれか1項に記載の前記キーワード拡張システムを使用して各クラスの拡張キーワードを取得する、キーワード拡張ユニットと、
クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、注釈ユニットと、
を有することを特徴とするシステム。 - コンピュータによって実行されたときにキーワード拡張方法を実行するコンピュータ実行可能命令が保存されたコンピュータプログラムであって、前記方法は、
所定の初期キーワードで検索して、現在のキーワードを取得するステップと、
検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行するステップであって、
前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間でキーワードエラーが所定の閾値未満である場合は、前記ループ検索処理を終了し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する、ステップと、
を有する、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310456381.XA CN104516903A (zh) | 2013-09-29 | 2013-09-29 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
CN201310456381.X | 2013-09-29 | ||
PCT/CN2013/088586 WO2015043066A1 (zh) | 2013-09-29 | 2013-12-05 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016532175A JP2016532175A (ja) | 2016-10-13 |
JP6231668B2 true JP6231668B2 (ja) | 2017-11-15 |
Family
ID=52741911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016518124A Expired - Fee Related JP6231668B2 (ja) | 2013-09-29 | 2013-12-05 | キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20160232211A1 (ja) |
EP (1) | EP3051431A4 (ja) |
JP (1) | JP6231668B2 (ja) |
CN (1) | CN104516903A (ja) |
WO (1) | WO2015043066A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765862A (zh) * | 2015-04-22 | 2015-07-08 | 百度在线网络技术(北京)有限公司 | 文档检索的方法和装置 |
CN106156372B (zh) * | 2016-08-31 | 2019-07-30 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106776937B (zh) * | 2016-12-01 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
CN107168943B (zh) | 2017-04-07 | 2018-07-03 | 平安科技(深圳)有限公司 | 话题预警的方法和装置 |
CN108228869B (zh) * | 2018-01-15 | 2020-07-21 | 北京奇艺世纪科技有限公司 | 一种文本分类模型的建立方法及装置 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN110399548A (zh) * | 2018-04-20 | 2019-11-01 | 北京搜狗科技发展有限公司 | 一种搜索处理方法、装置、电子设备以及存储介质 |
CN108984519B (zh) * | 2018-06-14 | 2022-07-05 | 华东理工大学 | 基于双模式的事件语料库自动构建方法、装置及存储介质 |
CN110309355B (zh) * | 2018-06-15 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 内容标签的生成方法、装置、设备及存储介质 |
CN108920467B (zh) * | 2018-08-01 | 2021-04-27 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN111078858B (zh) * | 2018-10-19 | 2023-06-09 | 阿里巴巴集团控股有限公司 | 文章搜索方法、装置及电子设备 |
CN109561211B (zh) * | 2018-11-27 | 2021-07-27 | 维沃移动通信有限公司 | 一种信息显示方法及移动终端 |
US10839802B2 (en) * | 2018-12-14 | 2020-11-17 | Motorola Mobility Llc | Personalized phrase spotting during automatic speech recognition |
CN110162621B (zh) * | 2019-02-22 | 2023-05-23 | 腾讯科技(深圳)有限公司 | 分类模型训练方法、异常评论检测方法、装置及设备 |
CN110134799B (zh) * | 2019-05-29 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于bm25算法的文本语料库的搭建和优化方法 |
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN110619067A (zh) * | 2019-08-27 | 2019-12-27 | 深圳证券交易所 | 基于行业分类的检索方法、检索装置及可读存储介质 |
CN110704590B (zh) * | 2019-09-27 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 扩充训练样本的方法和装置 |
CN111026884B (zh) * | 2019-12-12 | 2023-06-02 | 上海益商网络科技有限公司 | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 |
CN112883160B (zh) * | 2021-02-25 | 2023-04-07 | 江西知本位科技创业发展有限公司 | 一种用于成果转移转化的捕捉方法及辅助系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020073079A1 (en) * | 2000-04-04 | 2002-06-13 | Merijn Terheggen | Method and apparatus for searching a database and providing relevance feedback |
CN1145899C (zh) * | 2000-09-07 | 2004-04-14 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
JP4773003B2 (ja) * | 2001-08-20 | 2011-09-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
JP2004029906A (ja) * | 2002-06-21 | 2004-01-29 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
DE502005003997D1 (de) * | 2005-06-09 | 2008-06-19 | Sie Ag Surgical Instr Engineer | Ophthalmologische Vorrichtung für die Auflösung von Augengewebe |
US8266162B2 (en) * | 2005-10-31 | 2012-09-11 | Lycos, Inc. | Automatic identification of related search keywords |
US20080071744A1 (en) * | 2006-09-18 | 2008-03-20 | Elad Yom-Tov | Method and System for Interactively Navigating Search Results |
JP4819628B2 (ja) * | 2006-09-19 | 2011-11-24 | ヤフー株式会社 | ドキュメントデータを検索する方法、サーバ、およびプログラム |
US7974989B2 (en) * | 2007-02-20 | 2011-07-05 | Kenshoo Ltd. | Computer implemented system and method for enhancing keyword expansion |
KR101078864B1 (ko) * | 2009-03-26 | 2011-11-02 | 한국과학기술원 | 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법 |
JP5321258B2 (ja) * | 2009-06-09 | 2013-10-23 | 日本電気株式会社 | 情報収集システムおよび情報収集方法ならびにそのプログラム |
CN101996200B (zh) * | 2009-08-19 | 2014-03-12 | 华为技术有限公司 | 一种搜索文档的方法和装置 |
JP5751481B2 (ja) * | 2011-05-09 | 2015-07-22 | 廣川 佐千男 | 検索方法、検索装置及びプログラム |
CA3077454C (en) * | 2011-07-22 | 2022-08-23 | Open Text Corporation | Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation |
CN102682119B (zh) * | 2012-05-16 | 2014-03-05 | 崔志明 | 一种基于动态知识的深层网页数据获取方法 |
-
2013
- 2013-09-29 CN CN201310456381.XA patent/CN104516903A/zh active Pending
- 2013-12-05 EP EP13894407.9A patent/EP3051431A4/en not_active Ceased
- 2013-12-05 US US15/025,573 patent/US20160232211A1/en not_active Abandoned
- 2013-12-05 JP JP2016518124A patent/JP6231668B2/ja not_active Expired - Fee Related
- 2013-12-05 WO PCT/CN2013/088586 patent/WO2015043066A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2015043066A1 (zh) | 2015-04-02 |
EP3051431A4 (en) | 2017-05-03 |
EP3051431A1 (en) | 2016-08-03 |
CN104516903A (zh) | 2015-04-15 |
US20160232211A1 (en) | 2016-08-11 |
JP2016532175A (ja) | 2016-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6231668B2 (ja) | キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN108804642A (zh) | 检索方法、装置、计算机设备及存储介质 | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN108197144B (zh) | 一种基于BTM和Single-pass的热点话题发现方法 | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
CN106294733B (zh) | 基于文本分析的网页检测方法 | |
CN106484797A (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
Fejer et al. | Automatic Arabic text summarization using clustering and keyphrase extraction | |
US20130066898A1 (en) | Matching target strings to known strings | |
CN110472240A (zh) | 基于tf-idf的文本特征提取方法和装置 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
Li et al. | Efficiently mining high quality phrases from texts | |
Ghanem et al. | Stemming effectiveness in clustering of Arabic documents | |
Ullah et al. | A framework for extractive text summarization using semantic graph based approach | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN106294295B (zh) | 基于词频的文章相似度识别方法 | |
CN113139383A (zh) | 一种文档排序方法、系统、电子设备及存储介质 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN103034709A (zh) | 检索结果重排序系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160525 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6231668 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |