JP2016532175A - キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム - Google Patents

キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム Download PDF

Info

Publication number
JP2016532175A
JP2016532175A JP2016518124A JP2016518124A JP2016532175A JP 2016532175 A JP2016532175 A JP 2016532175A JP 2016518124 A JP2016518124 A JP 2016518124A JP 2016518124 A JP2016518124 A JP 2016518124A JP 2016532175 A JP2016532175 A JP 2016532175A
Authority
JP
Japan
Prior art keywords
keyword
search
acquired
current
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016518124A
Other languages
English (en)
Other versions
JP6231668B2 (ja
Inventor
マオ イエ
マオ イエ
ジー ターン
ジー ターン
ジエンボー シュイ
ジエンボー シュイ
チャオ レイ
チャオ レイ
リーフオン ジン
リーフオン ジン
Original Assignee
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ファウンダー アパビ テクノロジー リミティド
ファウンダー アパビ テクノロジー リミティド
ペキン ユニバーシティ
ペキン ユニバーシティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ファウンダー アパビ テクノロジー リミティド, ファウンダー アパビ テクノロジー リミティド, ペキン ユニバーシティ, ペキン ユニバーシティ filed Critical ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
Publication of JP2016532175A publication Critical patent/JP2016532175A/ja
Application granted granted Critical
Publication of JP6231668B2 publication Critical patent/JP6231668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Abstract

キーワード拡張のための方法及びシステムである。初期キーワードにより検索を実行し、検索され且つ取得されたキーワードは次の検索の基礎となり、キーワード反復によりループ検索を実行する。2回連続して検索された単語のエラーが一定の範囲内にあるとき、検索されたキーワードは、初期キーワードの拡張キーワードとなる。このように、初期キーワードの多様な表現及び単語の多面的で黙示的な意味が取得され、且つ、初期キーワードは効果的且つ合理的に拡張され、コーパスが手動で構築されることを要する従来技術の問題を解決する。本方法は、容易であり、且つ、キーワード拡張のための高精度な方法である。また、これは、複数のコーパスの分類及び自動注釈のための方法及びシステムである。本方法は、各クラスについて1つ又は複数の初期主要キーワードを判定する。各クラスの拡張キーワードは、初期主要キーワード拡張により取得される。検索は、クラスに対応する拡張キーワードを使用して実行され、クラスコーパスは、クラスから選択され且つ注釈される。【選択図】図1

Description

本発明は、キーワード拡張の方法及び分類コーパスを自動的に注釈する方法に関し、電子デジタルデータ処理の分野に関する。
一般に、キーワードは、何らかの関連のある用語を総合して表し得る単語である。キーワードにより包含される事柄の包括性を改善するために、各キーワードは、一般に、いくつかの関連のある意味に対応する。キーワードベースの検索のヒット率を高めるためには、キーワードに対応する関連のある単語を取得するべく、特定の初期キーワードの拡張を実行するのが一般的であり、これは同時検索で使用される。キーワード拡張方法は、従来技術で提供され、最初にキーワード、用語及び識別コードを含むデータベースを構築するステップと、次に各キーワードを少なくとも1つの用語に対応させるステップと、関連のあるキーワードを識別コードに対応させるステップと、ユーザにより入力されたキーワードに従って、データベース中にあるキーワードに対応する識別コードを判定するステップと、識別コードに従って、識別コードに対応する関連のあるキーワードを抽出するステップと、関連のあるキーワードに従って、各キーワードに対応する用語を問い合わせるステップと、を有する。この構成は、事前構築されたシソーラスに基づく自動キーワード拡張による検索方法を提供する。不十分に構築されたシソーラスは、キーワード拡張の正確性に深刻な影響を与える可能性がある。また、シソーラスの構築は、多くの人為的な経験を必要とし、ある程度主観的であることにより、分類の正確性に影響を及ぼす。
コーパス注釈は、主としてコーパスの分類特徴情報を記録することに関し、コーパスの表面的な分析の主要部分である。コーパス注釈は、情報検索、機械翻訳、主題事項分析及びテキスト処理といったような多くの分野で適用される。コーパス注釈の正確性は、テキスト分析やテキスト処理の正確性に直接影響を与える。
教師付きテキスト分類には、例えば、SVM(サポートベクターマシン)を使用するテキスト分類があり、分類システムが決定された後に、注釈されたコーパスは、分類モデルを訓練するために分類システムの分類ごとに用意される。分類コーパス注釈は、一般に人為的に実行される。即ち、コーパス注釈を担当する人は、彼又は彼女の知識に従ってどのクラスにコーパス要素が属するのかを判定する。しかし、膨大な量のコーパス要素が注釈されるためには、人為的なコーパス分類は、以下のような問題をもつ。(1)高い人為的コスト、(2)長時間の人工的注釈、(3)人工的注釈における主観的影響、即ち、同じコーパス要素について、異なる人々により異なるクラスに分類される可能性がある、(4)膨大な量のコーパス要素の場合、大量の注釈のためにエラーが生じる傾向にある。
BPニューラルネットワークに基づくコーパス注釈システムは、従来技術に開示されており、コーパスメモリ、注釈コーパスバッファリングメモリ、コーパス注釈結果コンパレータ及びBPニューラルネットワーク処理ユニットを有する。注釈中、BPニューラルネットワーク処理ユニットは、コーパスメモリ中の注釈すべきコーパスを注釈し、且つ、その注釈結果を注釈コーパスバッファリングメモリに保存する。コーパス注釈結果コンパレータは、バッファリングメモリ中の結果を比較する。上記の技術的解決において、BPニューラルネットワーク処理ユニットは、少なくとも2つの分類プロセッサを有する。注釈結果の処理において、少なくとも2つの分類プロセッサが注釈されるべきコーパスの注釈結果に対する幾つかの比較係数を特定の基準で満たすときのみ、注釈されるべきコーパスに注釈が実行され、且つ、コーパスメモリに保存される。この解決は、BPニューラルネットワークアルゴリズムに基づくものである。このアルゴリズムは、複雑且つ計算量が多く、低い収束率で、且つ、膨大な量のコーパス要素を処理するときに時間が消費される。更に、少なくとも2つの分類プロセッサは、分類処理に必要であるので、多くのメモリが占有される。一方で、ニューラルネットワークを訓練するために、幾つかの大規模に注釈された複数のコーパスは、事前に準備されなければないが、しかしこれはコストがかかる。
本発明で解決されるべき技術的問題は、従来技術におけるキーワード拡張が、より強い主観性を有し、シソーラスを構築するために多くの仕事量を必要とし、且つ、キーワード拡張が低い精度をもつということである。客観的、単純且つ容易で、正確なキーワード拡張の解決が提供される。
本発明で解決されるべき別の問題は、従来技術で採用されたコーパス注釈方法が、BPニューラルネットワークアルゴリズムに基づき、複雑且つ計算量が多く、低い収束率で、且つ、多くのメモリを占有するということである。一方、コーパス注釈において、幾つかの大規模に注釈された複数のコーパスは、分類プロセッサを訓練するために、事前に手動で準備されなければならないが、しかし、注釈された複数のコーパスを準備することは、コストがかかる。分類コーパスを自動的に注釈するための機械補助による方法を提供することが望ましい。
上記の技術的問題を解決するために、本発明は、以下の技術的解決を提供する。
キーワード拡張方法は、所定の初期キーワードで検索して、現在のキーワードを取得するステップと、検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する、ステップと、を有し、前記現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間のキーワードエラーが所定の閾値未満である場合は、前記ループ検索ステップを終了し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する。
任意の選択で、現在のキーワードを取得する前記検索処理は、検索を通して取得された各単語の前記出現数をカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有する。
任意の選択で、現在のキーワードを取得する前記検索処理は、検索を通して取得された単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有する。
任意の選択で、検索を通して取得された単語を取得する前記方法は、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有する前記記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された前記単語として使用する、ステップを有する。
任意の選択で、単語分割の後にストップワードを削除するステップと、前記所定のキーワードと同時に現れる同時出現単語を取得するステップと、及び、これらの同時出現単語を検索を通して取得された前記単語として使用するステップと、を更に有する。
任意の選択で、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合である。
任意の選択で、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得されたキーワードからそれぞれ取り出され、5≦n≦10である。
任意の選択で、前記所定のエラー閾値は、20%未満である。
任意の選択で、前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定される。
本明細書中に記載のキーワード拡張方法を使用して分類コーパスを注釈する方法は、各クラスについて1つ又は複数の初期主要キーワードを判定するステップと、前記初期主要キーワードで、キーワード拡張方法を使用して各クラスについて拡張キーワードを取得するステップと、クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、ステップと、を有する。
キーワード拡張システムは、所定の初期キーワードで検索して、現在のキーワードを取得する取得ユニットと、検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行するループ検索ユニットと、前記現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間でキーワードエラーが所定の閾値未満であるか否かを判定する、判定ユニットであって、所定の閾値未満である場合は、前記ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する、判定ユニットと、を有する。
任意の選択で、取得ユニットは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、検索を通して取得された各単語の出現数をそれぞれカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュールと、を有する。
任意の選択で、取得ユニットは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、検索を通して取得された前記単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、前記上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュール用の検索キーワード比較モジュールと、を有する。
任意の選択で、キーワード拡張システムにおいて、前記検索単語取得モジュールは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、単語分割の後にストップワードを削除し、前記所定のキーワードと同時に現れる同時出現単語を取得し、及び、これらの同時出現単語を検索を通して取得された前記単語として使用する。
任意の選択で、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合である。
任意の選択で、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得された前記キーワードからそれぞれ取り出され、5≦n≦10である。
任意の選択で、キーワード拡張システムにおいて、前記所定のエラー閾値は、20%未満である。
任意の選択で、キーワード拡張システムにおいて、前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定される。
本キーワード拡張システムを使用して分類コーパス注釈システムは、各クラスについて1つ又は複数の初期主要キーワードを判定するキーワード判定ユニットと、前記初期主要キーワードで、上記に記載の前記キーワード拡張システムを使用して各クラスの拡張キーワードを取得する、キーワード拡張ユニットと、クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、注釈ユニットと、を有する。
本開示の上記の技術的解決は、従来技術よりも1つ又はそれ以上の利点を持つ。
(1)本開示のキーワード拡張方法の一実施形態では、所定の初期キーワードで検索するステップを通して、次の検索の基礎として使用されるキーワードを取得するために、キーワード反復を通してループ検索を実行し、現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間のキーワードエラーが一定の範囲内である場合は、現在の検索で取得されたキーワードを初期キーワードの拡張キーワードとして使用し、この方法は初期キーワードの複数の表現及び複数の意味を得る可能性があり、効果的で意味のある初期キーワードの拡張を実現し、且つ、従来技術におけるシソーラスの手動構築の問題を解決し得る。本キーワード拡張方法は、容易な実施と高い精度において有利である。
(2)本キーワード拡張方法では、検索を通して取得された各単語の数の出現数をカウントするステップを通して、所定の閾値よりも大きな閾値を有する単語を検索を通して取得されたキーワードとして獲得する。または、検索を通して取得された単語の数及びそれらの出現数をカウントし、これらの出現数の降順に単語をソートし、且つ、上位の割合を占める単語を検索を通して取得されたキーワードとして獲得する。取得されたキーワードは、統計的有意性をもち、そのキーワードのあらゆる意味と関連するこれらの単語を容易に見つける。
(3)本キーワード拡張方法では、高い関連性を有する記事を取得するために、単語は記事リポジトリ中の検索を通して取得され、単語分割を実行し、ストップワードを削除し、且つ、同時出現単語を取得する。様々なフィルタリングステップの後、不要な単語は削除され、且つ、効果的な単語が取得されるかもしれない。
(4)本キーワード拡張方法では、現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間のキーワードエラーが一定の範囲内であるときに、検索処理は終了し、且つ、拡張されたキーワードが取得される。キーワード反復及び収束を通して理想的なキーワードが取得されるので、処理速度が速くなり且つ作業効率が向上する。
(5)本キーワード拡張方法では、現在の検索で取得されたキーワードが前の検索を通して取得されたキーワードと同じであるときに、現在の検索で取得されたキーワードは拡張キーワードとして判定され、且つ、拡張キーワードの正確性が向上する。
(6)本発明は、分類コーパス注釈方法を提供し、分類コーパスを取得するために検索処理において拡張されたキーワードが使用され、分類コーパス注釈の実効性及び正確性を向上し得る。この分類コーパス注釈方法は、この技術分野におけるBPニューラルネットワークアルゴリズムに基づき分類コーパス注釈方法の問題を効果的に回避し得る。即ち、このアルゴリズムは、複雑且つ計算量が多く、低い収束率で、且つ、膨大な量のコーパス要素を処理するときに時間が消費される。さらに、分類処理のために少なくとも2つの分類処理が要求されるので、多くのメモリが占有される。一方で、ニューラルネットワークを訓練するために、幾つかの大規模に注釈された複数のコーパスが事前に準備されなければならず、故にコストがかかる。
本発明のより簡単で且つ明確な理解のために、本発明の詳細な説明が以下の図面を参照するとともに与えられる。
本発明の一実施形態によるキーワード拡張方法のフローチャートである。 本発明の一実施形態による分類コーパス注釈方法のフローチャートである。 本発明の一実施形態によるキーワード拡張システムの構造図である。 本発明の一実施形態による分類コーパス注釈システムの構造図である。
実施形態1
本実施形態は、キーワード拡張方法を提供し、図1に示すように、本方法は以下のステップを有する。
ステップ102: 所定の初期キーワードで検索して、現在のキーワードを取得する。本実施形態において、検索は、記事レポジトリ中で初期キーワードにより実行され、高い関連性を有する記事を取得する。次に、単語分割は、高い関連性を有するこれらの記事で実行され、且つ、単語分割の結果は、検索を通して取得された単語として使用される。各単語の出現数はカウントされ、且つ、所定の閾値である50よりも大きな出現数を有する単語は、検索(記事レポジトリのサイズ及びキーワードのポピュラリティに従って特定される)を通して取得されたキーワードとして使用される。この方法で取得されたキーワードは、統計的有意性をもち、そのキーワードのあらゆる意味と関連するこれらの単語を容易に見つける。
ステップ104: 検索を通して取得された現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する。この検索処理は、ステップ102の特定の処理と類似する。このステップにおいて、検索は、前の検索で取得されたキーワードをこの検索処理で使用されるキーワードとして使用して実行される。検索を通して取得されたキーワードは、次の検索処理で使用されるキーワードとして順番に使用される。このように、検索は、キーワード反復を通して実行される。
ステップ106:各検索の後、現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間のキーワードエラーが所定の閾値よりも少ない場合は、ループ検索処理を終了し、且つ、現在の検索で取得されたキーワードを拡張キーワードとして使用する。例えば、現在の検索で取得されたキーワードは、前の検索で取得されたこれらのキーワードと比較され、同一である場合に、現在の検索で取得されたキーワードは、拡張キーワードとして使用される。このように、拡張キーワードの正確性は、向上し得る。
上記の実施形態による本キーワード拡張方法において、所定の初期キーワードで検索して、次の検索の基礎として使用されるキーワードを取得する間に、キーワード反復を通してループ検索を実行し、現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間のキーワードエラーが一定の範囲内にある場合は、現在の検索で取得されたキーワードを拡張キーワードとして使用する。本方法は、初期キーワードの複数の表現及び複数の意味を得る可能性があり、効果的で意味のある初期キーワードの拡張を実現し、且つ、従来技術におけるシソーラスの手動構築の問題を解決し得る。本キーワード拡張方法は、容易な実施と高い正確性において有利である。
別の代替実施形態として、現在の検索で取得されたキーワードは、前の検索で取得されたこれらのキーワードと比較してもよく、全キーワードに対する異なるキーワードの割合が所定の閾値、例えば、20%よりも小さい場合に、現在の検索で取得されたキーワードは、拡張キーワードとして判定される。
実施形態2
(1)所定の初期キーワードで検索して、現在のキーワードを取得する。
(2)検索を通して取得された現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する。
ステップ(1)及び(2)の検索処理において、本検索方法は、以下の通りである。
所定のキーワードで記事レポジトリ中を検索して、高い関連性を有する記事を取得する。次に、高い関連性を有するこれらの記事について単語分割を実行する。単語分割の後にストップワードを削除する。所定のキーワードと同時に現れる同時出現単語を取得し、及び、これらの同時出現単語を検索を通して取得された単語として使用する。ここで、同時出現単語は、スライディングウィンドウ法を使用して取得されてもよい。
上記の実施形態において、単語は、単語分割を通して取得され、ストップワードを削除し、且つ、同時出現単語を取得する。様々なフィルタリングステップの後、不要な単語は削除され、効果的な単語が取得されうる。
検索を通して取得された単語の数及びこれらの出現数をカウントし、単語をこれらの出現数の降順にソートし、且つ、上位の割合、例えば50%(ここで、割合は必要に応じて指定されてもよい)を占める単語を検索を通して取得された現在のキーワードとして獲得する。例えば、100単語が検索を通して取得された場合、頻繁に現れる単語の上位20%は、検索を通して取得されたキーワードとして獲得される。
ここで、別の代替実施形態として、出現数は、事前に正規化される。正規化の方法は、検索を通して取得された様々な単語について、これらの出現数の合計を計算し、単語毎に、この単語の出現数/合計の値を正規化した値として使用する。正規化した値を降順にソートし、且つ、上位の値をもつ単語の割合を検索を通して取得されたキーワードとして獲得する。
この処理において、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間のエラーは、現在の検索で取得されたキーワードの数と比較して、現在の検索と前の検索との間で異なるキーワードの数の割合として定義される。このエラーが10%より小さいときは、この検索処理は終了し、且つ、現在の検索で取得されたキーワードは拡張キーワードとして使用される。
別の代替実施形態として、このエラーは、例えば、最初の5個又は10個のキーワードといったように、最初のn個のキーワードから計算されてもよい。エラーが20%より小さいときは、処理が終了し、且つ、拡張キーワードが取得される。
現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間のエラーが一定の範囲内であるときに、検索処理は終了し、且つ、拡張キーワードが取得される。キーワード反復及び収束を通して理想的なキーワードが取得されるので、処理速度は向上し、且つ、作業効率が改善される。
実施形態3
図3は、本発明の実施形態によるキーワード拡張システムの構造図である。
図3に示すように、キーワード拡張システムは、
(1) 所定の初期キーワードで検索して、現在のキーワードを取得する取得ユニット31を有する。本実施形態において、取得ユニットは、記事リポジトリ中の所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、検索を通して取得された各単語の出現数をそれぞれカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュールと、を有する。
代替実施形態として、取得ユニットは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、検索を通して取得された単語の数及びこれらの出現数をカウントし、これらの出現数の降順に単語をソートし、且つ、上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュール用の検索キーワード比較モジュールと、を有する。
(2)検索を通して取得された現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行されるループ検索ユニット32。
上記に記載の検索処理は、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、単語分割の結果を検索を通して取得された単語として使用する。本キーワード拡張システムにおいて、ストップワードは、単語分割の後にも削除され、且つ、所定のキーワードと同時に現れる同時出現単語が取得され、且つ、検索を通して取得された単語として使用される。検索単語取得モジュール又は検索キーワード比較モジュールは、検索を通して取得された単語について統計的に実行して、検索を通して取得されたキーワードを取得する。
(3) 現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間のキーワードエラーが所定の閾値(例えば、10%)よりも少ないか否かを判定する判定ユニット33は、エラーが10%未満である場合、ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、現在の検索で取得されたキーワードを拡張キーワードとして使用する。現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間のエラーは、現在の検索で取得されたキーワードの数と比較して、現在の検索と前の検索との間で異なるキーワードの数の割合として定義される。代替実施形態として、エラー評価は、最初のn個のキーワードを使用して実行されてもよく、例えば、5≦n≦10である。
代替実施形態として、検索精度を向上するために、現在の検索で取得されたキーワードが前の検索を通して取得されたこれらのキーワードと同じである場合にのみ、現在の検索で取得されたキーワードは、拡張キーワードとして判定される。
実施形態4
個別の適用例は、以下により与えられる。
検索は、初期キーワード“コップ”で実行される。記事レポジトリ(500個の記事)は、単語“コップ”で検索され、且つ、一連のキーワード“水”、“ケトル”、“ティーカップ”、“水ディスペンサ”、“飲み物”は、上述の検索方法及びキーワードを取得する方法で取得される。
検索は、上記で取得された一連の単語で再び実行され、一連のキーワード“水”、“ティーカップ”、“ケトル”、“サーモスボトル”、“バケット”が取得される。
エラー40%は、上記2つの検索結果の比較を通して判定される。故に、検索は、キーワードとして上記の検索結果で更に実行され、“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”という結果が取得される。
エラー40%は、この検索結果と前の検索結果との比較を通して判定され、閾値20%を満たさず、そして、上記キーワードで検索処理をし続け、検索結果“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”を取得する。
20%未満のエラーは、この検索結果と前の検索結果の比較を通して判定され、閾値の基準を満たすので、検索処理は終了する。現在の検索の結果である“水”、“ティーカップ”、“カップ”、“水グラス”、“ケトル”は、キーワード“カップ”の拡張の後にキーワードとして使用される。
実施形態5
本実施形態は、キーワード拡張方法を使用した分類コーパス注釈の方法を提供し、図2のフローチャートに示すように、以下のステップを有する。
ステップ202:各クラスについて1つ又は複数の初期主要キーワードを判定する。
ステップ204:初期主要キーワードで、上記に記載のキーワード拡張方法を使用して各クラスの拡張キーワードを取得する。
ステップ206:クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、分類コーパスを注釈する。
実施形態6
図4は、本発明の一実施形態による分類コーパス注釈システムの構造図である。
図4に示すように、キーワード拡張システムを使用した分類コーパス注釈のシステムは、各クラスについて1つ又は複数の初期主要キーワードを判定するキーワード判定ユニット41と、初期主要キーワードで、キーワード拡張システムを使用して各クラスの拡張キーワードを取得する、キーワード拡張ユニット42であって、所定の初期主要キーワードで検索して、現在のキーワードを取得する取得サブユニットと、検索を通して取得された現在のキーワードを次の検索の基礎として使用し、且つ、キーワード反復を通してループ検索を実行する、ループ検索サブユニットと、現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間でキーワードエラーが所定の閾値未満であるか否かを判定する、判定サブユニットであって、所定の閾値未満である場合は、ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、現在の検索で取得されたキーワードを拡張キーワードとして使用する、判定サブユニットと、を有する、キーワード拡張ユニット42と、クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、分類コーパスを注釈する、注釈ユニット43と、を有する。
実施形態7
キーワード拡張方法を使用した分類コーパス注釈方法は、1つの適用例を参照して説明される。
S1: 各クラスについて1つ又は複数の初期主要キーワードを判定する。
分類システムにおいて、3つのクラス{軍事、経済、スポーツ}が与えられる。各クラスについて1つ又は複数の初期主要キーワードが手動で判定される。“軍事”を例にとると、キーワード{戦争、難民、死傷者}は、初期主要キーワードとして判定される。全てのテキストレポジトリは、新聞及び定期刊行物データベースから選択された記事で構築されている。
S2: 初期主要キーワードの拡張を通して各クラスの拡張キーワードを取得する。
ステップS2において、各クラスの拡張キーワードは、反復的検索を通して取得され、以下のステップを有する。
S21: クラスの初期主要キーワードで、検索を通してこのクラスの拡張キーワードの候補を取得する。
S210: “軍事”クラスの初期主要キーワード{戦争、難民、死傷者}を選択する。
S211: 初期主要キーワード{戦争、難民、死傷者}で検索をし、且つ、これらの関連性に従って、最初の1000個の記事を取得する。
他の実施形態では、記事の数はn個であり、ここで、n≧2、nは整数である。nの値は、30≦n≦2000の範囲である。nの値は、50、100、500、700、1200、1700、2000及び他の異なる値を選択してもよく、且つ、ユーザの要望及びクラス特性に従って選択されてもよい。
S212:クラス“軍事”の1000個の記事について単語分割を実行し、且つ、ストップワードを削除する。
本実施形態において、NLPIRトークナイザは、n個の記事及びストップワードについて単語分割を実行されるために使用される。ストップワードは、単語分割の後にストップワード辞書を使用して除去されてもよい。使用されるNLPIRトークナイザは、中国語の単語分割、POSタギング、言語要素識別、ユーザ辞書、マイクロブログ単語分割、新しい単語マイニング及びキーワード抽出といった機能を有し、且つ、GBK、UTF8、BIG5のエンコード形式をサポートする。このトークナイザは、完全な機能、高速な処理速度及び高い信頼性をもつ。
別の実施形態において、CJKトークナイザ又はIKトークナイザは、n個の記事について単語分割を実行し、且つ、ストップワードを削除するために使用されてもよい。ストップワードは、単語分割の後にストップワード辞書を使用して除去されてもよい。中国語のテキストレポジトリのために、中国語テキスト文書の処理専用で、高速な処理速度を有し、安定性及び信頼性があるCJKトークナイザが使用されてもよい。また、IKトークナイザも適している。ストップワードは、単語分割の後にストップワード辞書を使用して除去されてもよく、又は、IKトークナイザのストップワード辞書の設定を通して除去されてもよい。前方向且つ後方向における完全な分割及び前方向且つ後方向における最大一致分割は、辞書ベースの分割に基づき実現されてもよい。このトークナイザは、辞書のストレージを最適化し、少ないメモリを消費し、高速な処理速度及び高い信頼性を有する。
S213: スライディングウィンドウ法を使用して、キーワードの周囲にサイズ7のスライディングウィンドウを有する単語を拡張キーワードの候補として取得する。主要キーワードの前の3つの単語及び主要キーワードの後の3つの単語及び3つの単語自体は、拡張キーワードの候補として使用される。主要キーワードの前又は後が3つの単語よりも少ない場合、主要キーワードの前又は後の全ての単語は、選択される。
別の実施形態において、主要キーワードの前の6つのキーワード及び主要キーワード自体は、拡張キーワードの候補として使用されてもよい。または、主要キーワードの前の4つの単語、主要キーワードの後の2つの単語及び主要キーワード自体は、拡張キーワードの候補として使用されてもよい。または、主要キーワードの前の2つの単語、主要キーワードの後の4つの単語及び主要キーワード自体は拡張キーワードの候補として使用されてもよい。拡張キーワードの前又は後に十分な単語が存在しない場合、主要キーワードの前又は後の全ての単語が選択されてもよい。
別の実施形態において、スライディングウィンドウはサイズSを有し、ここで、S≧2であり、Sは、整数である。サイズSのスライディングウィンドウは、3≦S≦10の値を有する。スライディングウィンドウの値は、4、5、6、8、9、10及び他の異なる値から選択されてもよく、又は、ユーザの要望に従って選択されてもよい。
本発明の分類コーパスを自動的に注釈する方法において、キーワードは、スライディングウィンドウ法を使用して取得される。本方法は、ウィンドウサイズの制限を通して許容できる単語の最大数を制御してもよい。本アルゴリズムは、単純であり、高速な処理速度及び高い正確性を有する。
S22: 拡張キーワードの候補に変化が生じなくなるまで、取得された拡張キーワードの候補で検索して、その都度新しい主要キーワードを取得し、且つ、一連のキーワードとしてこれらを保存する。
S221: 拡張キーワードの候補の出現数をカウントし、且つ、これらの出現数の降順に拡張キーワードの候補をソートする。
S222: 最初の10個の拡張キーワードの候補を新しい主要キーワードとして選択する。
別の実施形態において、最初のm個の拡張キーワードの候補は、新しい主要キーワードとして選択されてもよく、ここで、m≧2、mは、整数であり、mの値は、5≦m≦30の範囲で、mの値は、5、7、13、17、25、27、30及び他の異なる値から選択されてもよく、且つ、ユーザの要望及びクラス特性に従って選択されてもよい。
S223: 新しい主要キーワードが変化せず且つ特定のキーワードの組に収束するまで、ステップS211に戻り、且つ、新しい主要キーワードで検索する。
クラス”軍事”の初期主要キーワードの拡張を通して取得された10個のキーワードは、初期主要キーワードに基づき反復的方法で取得された拡張キーワード{難民、イラク、戦争、アフリカ、家、強制される、アフガニスタン、ヨルダン、戦闘、再定住}である。
S23: キーワードの組をチェックし、且つ、クラス特性に適合しないキーワードを削除して、このクラスの拡張キーワードを取得する。
ユーザが軍事問題を研究していると仮定すると、クラス”軍事”の特性に適合しないキーワード{家、再定住}は削除されてもよい。
キーワードの組のチェックを通して、幾つかのクラス特性に適合しないキーワードは、削除されてもよく、取得された拡張キーワードは、より正確になる。
S3: クラスに対応する拡張キーワードで検索して、分類コーパスを選択し、且つ、注釈を実行するには、以下のステップを有する。
S31: 全テキストレポジトリ中を拡張キーワード{難民、イラク、戦争、アフリカ、強制される、アフガニスタン、ヨルダン、戦闘}で検索し、且つ、関連性の降順でソートする。
S32: 最初の1000個の記事をチェックし、且つ、分類コーパスを選択し、且つ、それを”軍事”として注釈する。
他の実施形態において、最初のK個の記事は、チェック用に選択されてもよく、ここで、K≧10であり、Kは、整数で、Kの値は、100≦m≦2000の範囲であり、Kの値は、1500、1700、2000及び他の異なる値から選択されてもよく、且つ、クラス特性に従って選択されてもよい。
最初のK個の記事のチェックにおいて、幾つかのクラス特性に適合しない記事は、削除されてもよく、クラス特性に適合するその他残りの記事をこのクラスのコーパスとして注釈する。
本発明の分類コーパスを自動的に注釈する方法において、各検索で取得される記事の数を限定することを通して、処理すべき記事の数を減らし、処理速度が向上され得る。一方で、低い関連性を有する記事は、削除されてもよく、取得された新しい主要キーワードはより正確になる。
本発明の分類コーパスを自動的に注釈する方法において、各検索は、全テキストでマッチングが実行される全文検索であり、結果として高い再現率となり、且つ、注釈されたコーパスはより正確になる。
本発明の分類コーパスを自動的に注釈する方法において、拡張キーワードの検索を通して取得されたコーパスをチェックすることを通して、幾つかのクラス特性に合致しない記事を削除し、且つ、このクラスのコーパスとして残りの記事を注釈し、コーパスの注釈がより正確になる。
実施形態8
本実施形態は、分類コーパスを注釈する方法の別の特定の実施形態を提供する。
ステップ1: 分類システムにおいて、3つのクラス{軍事、経済、スポーツ}が与えられる。各クラスについて、1つ又は複数の初期主要キーワードを手動で判定する。“軍事”を例にとると、キーワード{戦争、難民、死傷者}は、初期主要キーワードとして判定される。全てのテキストレポジトリは、新聞及び定期刊行物データベースから選択された記事で構築される。
ステップ2: クラス”軍事”のために、初期主要キーワード{戦争、難民、死傷者}での全文検索を通して最初の1000個の記事を取得する。
ステップ3: 取得された1000個の記事について単語分割を実行し、且つ、ストップワードを削除する。
ステップ4: スライディングウィンドウ法を使用して、サイズ6のスライディングウィンドウ中のキーワードの周囲にあるキーワードを取得する。
ステップ5: キーワードの出現数をカウントし、且つ、これらの出現数の降順にキーワードをソートする。
ステップ6: ステップ5で取得されたキーワードから、最初の10個のキーワードを新しい主要キーワードとして選択する。
ステップ7: 最初の10個のキーワードに変化が生じなくなるまで、ステップ2からステップ6を繰り返す。即ち、最初の10個のキーワードが特定のキーワードの組に収束する。取得された10個のキーワードは、初期主要キーワードに基づき反復的方法で取得された拡張キーワード{難民、イラク、戦争、アフリカ、家、強制される、アフガニスタン、ヨルダン、死傷者、再定住}である。
ステップ8: 拡張キーワードを手動でチェックして、クラス特性に適合しないキーワード{家、再定住}を削除する。
ステップ9: 全テキストレポジトリ中をこのクラスに対応する拡張キーワード{難民、イラク、戦争、アフリカ、強制される、アフガニスタン、ヨルダン、戦闘}で検索して、最初の1000個の記事を取得し、このクラスのコーパスの候補を形成する。
ステップ10: これらの1000個の記事を手動でチェックして、このクラスのコーパスを選択する。
ステップ11: 全クラスについて、ステップ2からステップ10を繰り返して、分類システムにおいて各クラスの注釈コーパスを取得する。
明らかに、上記の実施形態は、明確な説明のために与えられた例にすぎず、本発明を限定するものではない。当業者によって、上記の説明に基づき他の変更及び変形がなされてもよく、本明細書中に網羅的に記載され且つ記載できるものではない。派生したこれらの明らかな変更又は変形は、本発明の保護の範囲内にある。
本発明は、コンピュータによって実行されたときにキーワード拡張方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体を更に提供し、本方法は、所定の初期キーワードで検索して、現在のキーワードを取得するステップと、検索を通して取得された現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する、ステップと、現在の検索で取得されたキーワードと前の検索で取得されたこれらのキーワードとの間でキーワードエラーが所定の閾値未満である場合は、ループ検索処理を終了し、且つ、現在の検索で取得されたキーワードを拡張キーワードとして使用する、ステップと、を有する。
本発明は、コンピュータによって実行されたときに上述の分類コーパスを注釈する方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体を更に提供する。
当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムのプロダクトとして提供することができることを理解すべきである。従って、本出願は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態、又はソフトウェアとハードウェアを組み合わせた実施形態の形態を使用することができる。更には、本出願は、コンピュータによって実行可能なプログラミングコードを有する1つ又は複数の記憶媒体(限定を伴うことなしに、ディスクメモリ、CD−ROM、光メモリなどを含む)上において実行されるコンピュータプログラムプロダクトの形態を使用することもできる。
本出願は、本発明の実施形態による方法、機器(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロックダイアグラムを参照して記述されている。フローチャート及び/又はブロックダイアグラム中のそれぞれのフロー及び/又はブロックのみならず、フローチャート及び/又はブロックダイアグラム中のフロー及び/又はブロックの組合せは、コンピュータプログラム命令を通じて実現可能であることを理解されたい。このようなコンピュータプログラム命令は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現する装置が、コンピュータ又はプログラム可能なデータ処理機器の任意のその他のプロセッサによって実行される命令によって生成されるように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、組込み型プロセッサ、又はプログラム可能なデータ処理機器の任意のその他のプロセッサに提供されることができる。
また、このようなコンピュータプログラム命令は、コンピュータの可読メモリ内において保存されたコマンドがコマンド装置のプロダクトを生成するように、特定のスタイルにおける動作にコンピュータ又はその他のプログラム可能なデータ処理機器を導きうるコンピュータの可読メモリ内に保存可能であり、このような命令装置は、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つ又は複数のブロック内に規定されている機能を実現することができる。
また、このようなコンピュータプログラム命令は、コンピュータ又はその他のプログラム機器によって実行される命令が、フローチャート中の1つ又は複数のフロー及び/又はブロックダイアグラムの1つのブロック又は複数のブロック内において規定されている機能を実現するように、コンピュータ又はその他のプログラム可能な機器上において一連の動作ステップを実行してコンピュータによって実現されるプロセスを生成するように、コンピュータ又はその他のプログラム可能なデータ処理機器上に読み込むこともできる。
以上、本願の好適な実施形態について説明したが、当業者であれば、基本的な創造的概念を理解すれば、これらの実施形態の更なる変更及び変形を実施することができる。従って、添付の請求項は、好適な実施形態と、本願の範囲内のすべての変更及び変形と、を包含するべく解釈されることを意図している。

Claims (20)

  1. キーワード拡張方法であって、
    所定の初期キーワードで検索して、現在のキーワードを取得するステップと、
    検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行する、ステップと、を有し、
    前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間のキーワードエラーが所定の閾値未満である場合は、前記ループ検索ステップを終了し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用することを特徴とする方法。
  2. 請求項1に記載のキーワード拡張方法であって、現在のキーワードを取得する前記検索処理は、検索を通して取得された各単語の出現数をカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有することを特徴とする方法。
  3. 請求項1に記載のキーワード拡張方法であって、現在のキーワードを取得する前記検索処理は、検索を通して取得された単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、ステップを有することを特徴とする方法。
  4. 請求項2又は3に記載のキーワード拡張方法であって、検索を通して取得された単語を取得する前記方法は、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有する前記記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、ステップを有することを特徴とする方法。
  5. 請求項4に記載のキーワード拡張方法であって、前記キーワード拡張方法は、単語分割の後にストップワードを削除するステップと、前記所定のキーワードと同時に現れる同時出現単語を取得するステップと、及び、これらの同時出現単語を検索を通して取得された単語として使用するステップと、を更に有することを特徴とする方法。
  6. 請求項1乃至5のいずれか1項に記載のキーワード拡張方法であって、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合であることを特徴とする方法。
  7. 請求項6に記載のキーワード拡張方法であって、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得されたキーワードからそれぞれ取り出され、5≦n≦10であることを特徴とする方法。
  8. 請求項1に記載のキーワード拡張方法であって、前記所定のエラー閾値は、20%未満であることを特徴とする方法。
  9. 請求項1に記載のキーワード拡張方法であって、前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定されることを特徴とする方法。
  10. 分類コーパスを注釈する方法であって、
    各クラスについて1つ又は複数の初期主要キーワードを判定するステップと、
    前記初期主要キーワードで、請求項1乃至9のいずれか1項に記載のキーワード拡張方法を使用して各クラスについて拡張キーワードを取得するステップと、
    クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、ステップと、
    を有することを特徴とする方法。
  11. キーワード拡張システムであって、
    所定の初期キーワードで検索して、現在のキーワードを取得する取得ユニットと、
    検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行するループ検索ユニットと、
    前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間でキーワードエラーが所定の閾値未満であるか否かを判定する、判定ユニットであって、所定の閾値未満である場合は、前記ループ検索ユニットにループ検索処理を終了する指示を出し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する、判定ユニットと、
    を有することを特徴とするシステム。
  12. 請求項11に記載のキーワード拡張システムであって、前記取得ユニットは、
    記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、
    検索を通して取得された各単語の出現数をそれぞれカウントし、且つ、所定の閾値よりも大きな出現数を有する単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュールと、
    を有することを特徴とするシステム。
  13. 請求項11に記載のキーワード拡張システムであって、前記取得ユニットは、
    記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、且つ、前記単語分割の結果を検索を通して取得された単語として使用する、検索単語取得モジュールと、
    検索を通して取得された前記単語の数及びこれらの出現数をカウントし、前記単語をこれらの出現数の降順にソートし、且つ、前記上位の割合を占める単語を検索を通して取得された現在のキーワードとして獲得する、検索キーワード取得モジュール用の検索キーワード比較モジュールと、
    を有することを特徴とするシステム。
  14. 請求項12又は13に記載のキーワード拡張システムであって、前記検索単語取得モジュールは、記事レポジトリ内を所定のキーワードで検索して、高い関連性を有する記事を取得し、高い関連性を有するこれらの記事について単語分割を実行し、単語分割の後にストップワードを削除し、前記所定のキーワードと同時に現れる同時出現単語を取得し、及び、これらの同時出現単語を検索を通して取得された単語として使用することを特徴とするシステム。
  15. 請求項11乃至14のいずれか1項に記載のキーワード拡張システムであって、現在の検索を通して取得されたキーワードと前の検索で取得されたキーワードとの間の前記キーワードエラーは、前記現在の検索で取得された前記キーワードの数と比較して、前記現在の検索と前記前の検索との間で異なるキーワードの数の割合であることを特徴とするシステム。
  16. 請求項15に記載のキーワード拡張システムであって、最初のn個のキーワードは、エラー評価用に前記現在の検索で取得されたキーワード及び前記前の検索を通して取得された前記キーワードからそれぞれ取り出され、5≦n≦10であることを特徴とするシステム。
  17. 請求項11乃至16のいずれか1項に記載のキーワード拡張システムであって、前記所定のエラー閾値は、20%未満であることを特徴とするシステム。
  18. 請求項11乃至17に記載のキーワード拡張システムであって、前記現在の検索で取得されたキーワードが前記前の検索を通して取得されたキーワードと同じである場合は、前記現在の検索で取得された前記キーワードが拡張キーワードとして判定されることを特徴とするシステム。
  19. 分類コーパス注釈システムであって、
    各クラスについて1つ又は複数の初期主要キーワードを判定するキーワード判定ユニットと、
    前記初期主要キーワードで、請求項11乃至18のいずれか1項に記載の前記キーワード拡張システムを使用して各クラスの拡張キーワードを取得する、キーワード拡張ユニットと、
    クラスに対応する前記拡張キーワードで検索して、分類コーパスを選択し、且つ、前記分類コーパスを注釈する、注釈ユニットと、
    を有することを特徴とするシステム。
  20. コンピュータによって実行されたときにキーワード拡張方法を実行するコンピュータ実行可能命令が保存された1つ又は複数のコンピュータ可読媒体であって、前記方法は、
    所定の初期キーワードで検索して、現在のキーワードを取得するステップと、
    検索を通して取得された前記現在のキーワードを次の検索の基礎として使用し、キーワード反復を通してループ検索を実行するステップであって、
    前記現在の検索で取得されたキーワードと前の検索で取得されたキーワードとの間でキーワードエラーが所定の閾値未満である場合は、前記ループ検索処理を終了し、且つ、前記現在の検索で取得された前記キーワードを拡張キーワードとして使用する、ステップと、
    を有することを特徴とする方法。
JP2016518124A 2013-09-29 2013-12-05 キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム Active JP6231668B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310456381.X 2013-09-29
CN201310456381.XA CN104516903A (zh) 2013-09-29 2013-09-29 关键词扩展方法及系统、及分类语料标注方法及系统
PCT/CN2013/088586 WO2015043066A1 (zh) 2013-09-29 2013-12-05 关键词扩展方法及系统、及分类语料标注方法及系统

Publications (2)

Publication Number Publication Date
JP2016532175A true JP2016532175A (ja) 2016-10-13
JP6231668B2 JP6231668B2 (ja) 2017-11-15

Family

ID=52741911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016518124A Active JP6231668B2 (ja) 2013-09-29 2013-12-05 キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム

Country Status (5)

Country Link
US (1) US20160232211A1 (ja)
EP (1) EP3051431A4 (ja)
JP (1) JP6231668B2 (ja)
CN (1) CN104516903A (ja)
WO (1) WO2015043066A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765862A (zh) * 2015-04-22 2015-07-08 百度在线网络技术(北京)有限公司 文档检索的方法和装置
CN106156372B (zh) * 2016-08-31 2019-07-30 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106776937B (zh) * 2016-12-01 2020-09-29 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN107168943B (zh) * 2017-04-07 2018-07-03 平安科技(深圳)有限公司 话题预警的方法和装置
CN108228869B (zh) * 2018-01-15 2020-07-21 北京奇艺世纪科技有限公司 一种文本分类模型的建立方法及装置
CN108647225A (zh) * 2018-03-23 2018-10-12 浙江大学 一种电商黑灰产舆情自动挖掘方法和系统
CN110399548A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种搜索处理方法、装置、电子设备以及存储介质
CN108984519B (zh) * 2018-06-14 2022-07-05 华东理工大学 基于双模式的事件语料库自动构建方法、装置及存储介质
CN110309355B (zh) * 2018-06-15 2023-05-16 腾讯科技(深圳)有限公司 内容标签的生成方法、装置、设备及存储介质
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN111078858B (zh) * 2018-10-19 2023-06-09 阿里巴巴集团控股有限公司 文章搜索方法、装置及电子设备
CN109561211B (zh) * 2018-11-27 2021-07-27 维沃移动通信有限公司 一种信息显示方法及移动终端
US10839802B2 (en) * 2018-12-14 2020-11-17 Motorola Mobility Llc Personalized phrase spotting during automatic speech recognition
CN110162621B (zh) * 2019-02-22 2023-05-23 腾讯科技(深圳)有限公司 分类模型训练方法、异常评论检测方法、装置及设备
CN110134799B (zh) * 2019-05-29 2022-03-01 四川长虹电器股份有限公司 一种基于bm25算法的文本语料库的搭建和优化方法
CN110489526A (zh) * 2019-08-13 2019-11-22 上海市儿童医院 一种用于医学检索的检索词扩展方法、装置及存储介质
CN110619067A (zh) * 2019-08-27 2019-12-27 深圳证券交易所 基于行业分类的检索方法、检索装置及可读存储介质
CN110704590B (zh) * 2019-09-27 2022-04-12 支付宝(杭州)信息技术有限公司 扩充训练样本的方法和装置
CN111026884B (zh) * 2019-12-12 2023-06-02 上海益商网络科技有限公司 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN112883160B (zh) * 2021-02-25 2023-04-07 江西知本位科技创业发展有限公司 一种用于成果转移转化的捕捉方法及辅助系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073079A1 (en) * 2000-04-04 2002-06-13 Merijn Terheggen Method and apparatus for searching a database and providing relevance feedback
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法
US20070010804A1 (en) * 2005-06-09 2007-01-11 Sie Ag Surgical Instrument Engineering Ophthalmologic device for breaking down eye tissue
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2012234485A (ja) * 2011-05-09 2012-11-29 Kyushu Univ 検索方法、検索装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1145899C (zh) * 2000-09-07 2004-04-14 国际商业机器公司 为文字文档自动生成摘要的方法
US8266162B2 (en) * 2005-10-31 2012-09-11 Lycos, Inc. Automatic identification of related search keywords
US20080071744A1 (en) * 2006-09-18 2008-03-20 Elad Yom-Tov Method and System for Interactively Navigating Search Results
US7974989B2 (en) * 2007-02-20 2011-07-05 Kenshoo Ltd. Computer implemented system and method for enhancing keyword expansion
KR101078864B1 (ko) * 2009-03-26 2011-11-02 한국과학기술원 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
CN101996200B (zh) * 2009-08-19 2014-03-12 华为技术有限公司 一种搜索文档的方法和装置
CA2747145C (en) * 2011-07-22 2018-08-21 Open Text Corporation Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
CN102682119B (zh) * 2012-05-16 2014-03-05 崔志明 一种基于动态知识的深层网页数据获取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073079A1 (en) * 2000-04-04 2002-06-13 Merijn Terheggen Method and apparatus for searching a database and providing relevance feedback
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法
US20070010804A1 (en) * 2005-06-09 2007-01-11 Sie Ag Surgical Instrument Engineering Ophthalmologic device for breaking down eye tissue
JP2008077137A (ja) * 2006-09-19 2008-04-03 Yafoo Japan Corp ドキュメントデータを検索する方法、サーバ、およびプログラム
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2012234485A (ja) * 2011-05-09 2012-11-29 Kyushu Univ 検索方法、検索装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河合 英紀、外4名: "ブートストラップ式同位語辞書構築における検索効率の向上", 情報処理学会論文誌 論文誌トランザクション 平成20年度(1) [CD−ROM], vol. 第1巻,第1号, JPN6017020704, 4 February 2009 (2009-02-04), JP, pages 36 - 48, ISSN: 0003572665 *

Also Published As

Publication number Publication date
EP3051431A4 (en) 2017-05-03
US20160232211A1 (en) 2016-08-11
EP3051431A1 (en) 2016-08-03
WO2015043066A1 (zh) 2015-04-02
JP6231668B2 (ja) 2017-11-15
CN104516903A (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
JP6231668B2 (ja) キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US8266121B2 (en) Identifying related objects using quantum clustering
CN109960756B (zh) 新闻事件信息归纳方法
CN108197144B (zh) 一种基于BTM和Single-pass的热点话题发现方法
US20140207782A1 (en) System and method for computerized semantic processing of electronic documents including themes
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN106294733B (zh) 基于文本分析的网页检测方法
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
Beliga et al. Toward selectivity based keyword extraction for Croatian news
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
Fejer et al. Automatic Arabic text summarization using clustering and keyphrase extraction
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN110472240A (zh) 基于tf-idf的文本特征提取方法和装置
Li et al. Efficiently mining high quality phrases from texts
CN103064982A (zh) 一种专利检索时智能推荐专利的方法
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
CN106294295B (zh) 基于词频的文章相似度识别方法
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Li et al. Keyphrase extraction and grouping based on association rules
Sathya et al. Link based K-Means clustering algorithm for information retrieval

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171019

R150 Certificate of patent or registration of utility model

Ref document number: 6231668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350