JP2023008943A

JP2023008943A - データマイニング方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2023008943A
Application number: JP2022105372A
Authority: JP
Inventors: マオ，チン; Qin Mao; ゾウ，ペイ; Pei Zou; ジャン，ユエ; Yue Zhang; リウ，ヤン; Yan Liu; デン，ハイチャオ; Haichao Deng
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2022-06-30
Publication date: 2023-01-19
Also published as: CN113535813A; US11755677B2; EP4113321A1; CN113535813B; US20230004613A1; KR20230004333A

Abstract

【課題】インターネットビッグデータ処理技術におけるデータマイニング方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、マイニングすべき現在の文章を取得するステップと、予め設定された多種のデータ識別ポリシーに基づいて、現在の文章から、１種の予め設定された種類のデータを認識するための各種のデータ識別ポリシーに必要な情報値を取得するステップと、各種のデータ識別ポリシーをそれぞれ利用し、識別ポリシーに必要な情報値に基づいて、現在の文章に対してデータ種類識別を行い、データ種類識別結果を得るステップと、種類識別結果に応じて、現在の文章がいずれかの予め設定された種類のデータに属するか否かを決定するステップと、を含む。【選択図】図１

Description

本開示は、インターネットの技術分野に関し、特にインターネットビッグデータ処理技術におけるデータマイニング方法、装置、電子機器及び記憶媒体に関する。

現在、多くの企業は、生成されたインターネットデータを分析し、必要なデータをマイニングし、マイニングされたデータに基づいてさらに処理する必要がある。例えば、企業がインターネットデータに対して世論分析を行うように助けるために、主にリアルタイムで世論を監視し、突発的な世論をタイムリーに警報する世論分析システムが現れた。

大量のインターネットデータから必要なデータを効率的にマイニングすることは、ネットワークデータ処理を行う重要なステップであることが分かる。具体的には、世論分析にとって、どのように大量のインターネットデータの中から世論データを効果的にマイニングするかは、世論分析を行う最も重要な一環である。

本開示は、必要なデータを効率的にマイニングできるデータマイニング方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、データマイニング方法が提供され、この方法は、マイニングすべき現在の文章を取得するステップと、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するステップであって、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである、ステップと、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るステップと、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定する。

本開示の他の態様によれば、データマイニング装置が提供され、このデータマイニング装置は、データをマイニングすべきインターネットデータのうちの現在の文章を取得するための現在の文章取得モジュールと、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュールであって、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュールと、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュールと、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュールとを含む。

本開示の他の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリとを含む電子機器が提供され、前記メモリには前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが上記いずれかの方法を実行できる。

本開示の他の態様によれば、コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータ命令は、前記コンピュータに上記いずれかの方法を実行させるためのものである。

本開示の他の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、前記コンピュータプログラムがプロセッサにより実行されると、上記いずれかの方法を実現する。

本明細書に記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を表すことを意図するものではなく、本開示の範囲を制限するためのものでもないことを理解されたい。本開示の他の特徴は、以下の説明書によって容易に理解される。

図面は、本発明をより良く理解するようにするためのものであり、本開示を限定しない。
本開示に係るデータマイニング方法の第１の実施例のフローチャートである。本開示に係るデータマイニング方法の第２の実施例のフローチャートである。本開示に係るデータマイニング方法が世論システムに適用される世論データ分類の模式図である。本開示に係るデータマイニング方法の第３の実施例のフローチャートである。本開示に係るデータマイニング方法が世論システムに適用される世論分析の全過程の模式図である。本開示に係るデータマイニング装置の第１の実施例の構造模式図である。本開示に係るデータマイニング装置の第２の実施例の構造模式図である。本開示に係るデータマイニング装置の第３の実施例の構造模式図である。本開示の実施例のデータマイニング方法を実現するための電子機器のブロック図である。

以下、図面を参照して、本開示の例示的な実施形態を説明する。本開示の実施形態の様々な詳細は、理解を容易にするためのものであり、単なる例であると考えるべきである。したがって、当業者は、本開示の範囲および要旨から逸脱することなく、本明細書に記載された実施形態に対して様々な変更および修正を行うことができる。同様に、以下の説明では、公知機能および構造についての説明は、明瞭かつ簡明のために省略される。

本開示は、必要なデータを効果的にマイニングできるデータマイニング方法、装置、電子機器及び記憶媒体を提供し、以下、詳細に説明する。

図１を参照すると、図１は、本開示に係るデータマイニング方法の第１の実施例のフローチャートであり、図１に示すように、該方法は、ステップＳ１１０～ステップＳ１４０を含む。

ステップＳ１１０において、マイニングすべき現在の文章を取得する。

ステップＳ１２０において、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得し、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである。

ステップＳ１３０において、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得る。

ステップＳ１４０において、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定する。

上記の実施例から分かるように、本開示に係るデータマイニング方法は、予め設定された多種のデータ認識ポリシーに基づいて、ウェブページデータに対してデータ分類マイニングを行い、異なるタイプのデータを効果的にマイニングすることができる。現在よく使われているウェブページデータを手動でマイニングすることに比べて、より効率的で正確である。

本開示は、マイニングすべきデータをデータ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの３つのタイプに分ける。

本開示に係るデータマイニング方法は、世論システムに適用できる。世論データの分類マイニングを実現するために、世論システムにおける世論データをデータ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの３つのタイプに分けることができる。

このように、世論データマイニングを行うとき、この３つのタイプに対してマイニングすることができ、この後にこの３つのタイプの世論データを直接マイニングして分類処理することに、便利な条件を提供する。

文章は、世論システムの最も基本的な要素であり、データの品質が低いということは、文章自体の品質状況を測ることである。文章自体のデータ品質が低すぎるとユーザに与える影響が大きく、従って、後続の処理で直接フィルタリングするように、データ品質の低い文章をマイニングする必要がある。

内容品質の低い文章ということは、文章を理解して、文章が広告、ポルノやギャンブルなどに属するか否かを確認することである。このような内容品質の低い文章は悪影響を与え、従って、後続の研究開発者が内容フィルタリングアルゴリズムを改良するように、内容品質の低い文章をマイニングする必要がある。

文章の感情分類は、世論分析の特徴的な機能であり、感情的分析の正確性が特に重要であり、従って、後続の研究開発者が感情極性分析のアルゴリズムを改良するように、感情的分析が正確でない文章をマイニングする必要がある。

図２を参照すると、図２は、本開示に係るデータマイニング方法の第２の実施例のフローチャートであり、図２に示すように、該フローチャートは、図１を基づいて、ステップＳ１２０及びＳ１３０を詳細化する。

具体的には、ステップＳ１２０は、ステップＳ１２１～ステップＳ１２３を含むことができる。

ステップＳ１２１において、データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得する。

本開示の技術的解決手段が世論システムに適用されている場合、データ品質の低いタイプの世論データについて、本開示で採用できる世論データ認識ポリシーは主にルールマッチングである。本実施例では、文章タイトル、文章要約及び文章内容に対する属性マッチングルールが定義されている。従って、本ステップにおいて、現在の文章から文章タイトル、文章要約及び文章内容を取得できる。

本実施例では、データ品質の低い世論データに対して採用できる認識ポリシーは、主に、ルールマッチングである。このルールマッチング認識ポリシーは、介入しやすく、ｂａｄｃａｓｅの評定範囲を拡張しようとすると、ルールを直接追加すればよい。また、解釈性がより高く、ｂａｄｃａｓｅを発見すると、どのルールに当たるかを直接検索できる。また、複数の分野間を移ることができ、大量の人件費を節約し、例えば、世論システムから推薦システムに移ったり、政務世論から企業世論に移ったりすることができる。

ステップＳ１２２において、内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出する。

本開示の技術的解決手段が世論システムに適用されている場合、内容品質の低いタイプの世論データについて、本開示で採用できる世論データ認識ポリシーは、主に、キーワードマッチングである。従って、本ステップにおいて、現在の文章からキーワードを抽出できる。

ステップＳ１２３において、感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得する。

本開示の技術的解決手段が世論システムに適用されている場合、感情的分析が正確でない世論データについて、本開示で採用できる世論データ認識ポリシーは、主に、発表された感情極性ラベルが正確であるか否かを異なる感情極性分析アルゴリズムによって検証することである。従って、本ステップにおいて、現在の文章から、発表された感情極性ラベルを取得できる。

具体的には、ステップＳ１３０において、ステップＳ１３１～ステップＳ１３３を含むことができる。

ステップＳ１３１において、データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得る。

本開示の技術的解決手段が世論システムに適用されている場合、本ステップは、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定するステップであってもよい。

文章タイトル、文章要約、文章内容の３つの属性について、本開示では、長さが長すぎるか否か／短すぎるか否かのルール、空であるか否かのルール、化けしているか否かなどのルールを定義することができる。したがって、本ステップは、具体的には、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたテキスト長さルール又は化けルール及び文章タイトルと文章要約とがマッチングするか否かのルールのうちの１つ又は複数のルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定するステップであってもよい。

このように、本実施例では、データ品質の低い世論データをマイニングする工程で、異なるルールに従って、これらの世論データをタイトルが短すぎたり長すぎたりするサブタイプ、要約が短すぎたり長すぎたりするサブタイプ、タイトルが空であるサブタイプ、要約が空であるサブタイプや、内容が重複するサブタイプなどのサブタイプにさらに分けることができる。

また、本開示では、タイトルと要約とがマッチングするか否かのルールを定義することができる。このルールは、現在の文章が文章タイトルと文章要約のテキストとがマッチングしないこと、及び文章タイトルと文章要約のセマンティクスとがマッチングしないことのうちの少なくとも１つを満たした場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定することを含む。このように、本ステップは、さらに、タイトルと要約とがマッチングか否かを判断することにより、現在の文章がデータ品質の低いタイプの世論データであるか否かを決定することができる。以上から分かるように、本実施例では、タイトルと要約とがマッチングか否かによって、データ品質の低い世論データを認識することができる。

具体的には、本ステップにおいて、タイトルと要約とがマッチングか否かを計算するために、多種の計算指標を採用している。まず、テキストマッチング度である。タイトルと要約のそれぞれからワードを選択し、タイトルワードセットと要約ワードセットの２つのセットの重複割合を計算する。そして、セマンティクスマッチング度である。まず、中国語のＮＬＰプリトレーニングモデル（ＥＲＮＩＥモデル）からタイトルと要約のベクトルを得て、タイトルベクトルと要約ベクトルの２つのベクトルのコサイン（ｃｏｓ）距離を計算する。重複割合及びｃｏｓ距離のそれぞれが予め設定されたマッチング条件を満たす場合、文章タイトルと文章要約とがマッチングされると決定する。例えば、タイトルワードセットと要約ワードセットとの重複割合が予め設定された重複閾値以上であり、かつタイトルベクトルと要約ベクトルｃｏｓとの距離が予め設定された距離閾値未満である場合、文章タイトルと文章要約とがマッチングされると決定する。

また、本開示は、さらに、ＵＲＬ属性について、デッドリンク定期的検出などのルールを定義することができる。従って、上記ステップ１２１において、前記現在の文章のＵＲＬ情報を取得することができる。

本ステップにおいて、予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出するステップと、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するするステップとをさらに含むことができる。

具体的な方式は、前記ＵＲＬに定期的にアクセスし、３回（または３回以上）連続で戻った応答コードが該ＵＲＬにアクセスできないことを表す場合、デッドリンク現象が生じており、現在の文章がデータ品質の低いタイプのデータであると決定する。本実施例では、連続回数は限定されず、研究開発者によって実際場合に応じて設定されてもよい。

このように、本実施例では、ＵＲＬ検出により、アクセスできなかった文章を検出し、それにより、データの品質が低いデータを認識することができる。

図２に示すように、ステップＳ１３２において、内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第２の認識結果を得る。

本ステップにおいて、現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを１回目マッチングし、第１のキーワードマッチング結果を得て、第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する。

本実施例では、内容品質の低いデータは、主に広告、ポルノ、ギャンブルの３つの種類のデータである。

具体的には、本開示の技術的解決手段が世論システムに適用されている場合、この３つの種類のデータについては、異なる方法で決定してもよい。

第１には、広告データについては、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプの世論データであると決定する。

このように、１回マッチングすることにより、現在の文章が広告データであるか否かを判断できる。

予め設定された内容品質の低いタイプの世論データに対応するキーワードは、予め記憶された手動で選ばれた高頻度の広告キーワードであってもよいし、ネットワークからダウンロードされた広告キーワードテーブルのうちの広告キーワードが追加されてもよい。

ネットワークからダウンロードされた広告キーワードテーブルを用いて１回目マッチングすることにより、認識のカバー範囲を広げ、汎化能力をさらに向上させることができる。

もちろん、このような方法は、ポルノ及びギャンブルに関連するデータに対して世論データ認識を行うことができる。

第２には、ポルノに関連するデータについては、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを２回目マッチングし、第２のキーワードマッチング結果を得る。第２のキーワードマッチング結果が２回目のマッチングに成功したことを表す場合、前記現在の文章は、内容品質の低いタイプの世論データではなく、第２のキーワードマッチング結果が２回目のマッチングに成功しなかったことを表す場合、前記現在の文章は、内容品質の低いタイプの世論データである。

具体的には、本実施例は、モデル＋ルールのポリシーを用いてポルノ関連データを認識することができる。実施例では、１回目のキーワードマッチングは、予め設定された、ポルノキーワードに基づいてトレーニングされたポルノモデルを用い、現在の文章のキーワードをポルノモデルに入力して、該現在の文章のキーワードがポルノキーワードを含むか否か、どのポルノキーワードを含むかの出力結果を取得する。ポルノモデルがポルノキーワードを出力した場合、１回目のマッチングに成功したことを表す。そして、２回目のマッチングルールを用いて現在の文章のキーワードを２回目マッチングし、すなわち、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを２回目マッチングし、第２のキーワードマッチング結果を得る。ここでの信頼できるキーワードは、予め手動で抽出されたもの、例えば、「警察」、「○○メディア報道」などである。このように、現在の文章がこれらの信頼性の高いキーワードに当たる場合、ポルノラベルをキャンセルする。

このように、２回のキーワードマッチングによって、ポルノに関連するデータを正確に認識でき、それにより、ｂａｄｃａｓｅの誤認識率を低減させる。

もちろん、このような方法は、広告及びギャンブルに関連するデータに対する世論データ認識にも適用できる。

第３には、ギャンブルに関連するデータについては、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、前記現在のウエブサイトが予め設定された内容品質の低いタイプの世論データの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプの世論データであると決定する。

具体的には、本実施例では、キーワード＋ギャンブルウエブサイトのフィルタリングワードによってマイニングすることができ、実際のシーンでは、ギャンブル内容がより晦渋であることが多く、タイトル又はテキスト内容を通じて発見しにくいため、一連のギャンブルウエブサイトを予め決定し、キーワード＋ギャンブルウエブサイトによってマイニングする。前記第１のマッチング結果が１回目のマッチングに成功したことを表し、つまり、現在の文章中のあるキーワードが、予め設定されたギャンブルに関連するキーワードとマッチングした場合、現在の文章の属する現在のウエブサイトが上記のギャンブルウエブサイトに属するか否かをさらに判断し、そうである場合、前記現在の文章がギャンブルに関連する内容品質の低いタイプの世論データであると決定する。

このように、ギャンブルに関連する世論データをマイニングでき、ギャンブルに関連する世論データマイニングの正確性をさらに向上させる。

もちろん、このような方法は、広告及びポルノに関連するデータに対する世論データ認識にも適用できる。

図２を参照すると、ステップＳ１３３において、感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第３の認識結果を得る。

感情的分析は、成熟した技術であり、いくつかの成熟した感情極性分析アルゴリズムがあり、例えば、辞書ベースの感情極性分析アルゴリズム、最近傍アルゴリズム（ｋ＿ＮＮ）ベースの感情極性分析アルゴリズム、ベキス（Ｂａｙｅｓ）ベースの感情極性分析アルゴリズム、最大エントロピーベースの感情極性分析アルゴリズム、サポートベクタマシンＳＶＭベースの感情極性分析アルゴリズムなどがある。

本実施例では、現在の文章の感情極性ラベルは、前記現在の文章の発表中において第１の感情極性分析アルゴリズムを用いて分析して取得されるものであってもよい。

このように、第１の感情極性分析アルゴリズムと異なる第２の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得ることができる。

そして、現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定する。

このように、本実施例によって、感情的分析が正確でない文章を正確にマイニングでき、この後に感情極性分析アルゴリズムをさらに調整するに有利なデータサポートを提供する。

具体的には、本開示の技術的解決手段が世論システムに適用されている場合、前記現在の感情極性と前記感情極性ラベルの極性とが逆である否か、かつ前記第２の感情極性分析アルゴリズムによって出力された現在の感情極性の信頼度が予め設定された閾値以上であるか否かを判断し、そうである場合、前記現在の文章が感情的分析が正確でないタイプの世論データであると決定する。

実際の感情的分析シーンでは、本開示の発明者は、ポジティブ極性及びネガティブ極性の文章についての感情的分析誤りへのユーザの反感の度合いが、ニュートラル極性の誤りよりも遥かに大きいことを発見した。つまり、ユーザは、ポジティブ及びネガティブ傾向についての判定に非常に敏感である。例えば、「○○がある罪で懲役３年の判決を受けた」という文の感情的傾向は、ニュートラルであってもよいし、ネガティブであってもよい。しかし、この文がポジティブと判定されると、受け入れられにくい。また例えば、「７月１日から、Ａ市はごみの分別を全面的に推進する」という文の感情的傾向は、ニュートラルであってもよいし、ポジティブであってもよいが、ネガティブと判定されると、明らかな誤りである。

従って、以上のユーザの心理に対する観察分析に基づいて、本開示で採用される、感情的分析が正確でないタイプのデータをマイニングするルールは、３点を含むことができる。ａ、第２の感情極性分析アルゴリズムを用いて得られた現在の感情極性と、第１の感情極性分析アルゴリズムを用いて得られた感情極性ラベルの極性とは反対である。ｂ、反対の極性とは、ポジティブ及びネガティブである。ｃ、第２の感情極性分析アルゴリズムで得られた現在の感情極性の信頼度が０．９５以上である。以上の３つのルールを全部満たした場合、感情的分析が正確でないｂａｄｃａｓｅと判定する。

以上から分かるように、本実施例おいて、この３つのルールによる、感情的分析が正確でない世論データに対するマイニング方式は、ユーザの心理に合致し、このようにマイニングされた感情的分析が正確でない世論データはより正確である。

第２の感情極性分析アルゴリズムは、ＮＬＰＣツールにより提供される分析アルゴリズムであってもよい。第１の感情極性分析アルゴリズムは、ＮＬＰＣツールにより提供される分析アルゴリズムとは異なる感情的分析アルゴリズムである。

具体的には、ＮＬＰＣは、まず大きなデータセットで言語モデルＥＲＮＩＥを予めトレーニングし、そしてＥＲＮＩＥに基づいて感情極性分類モデルをトレーニングする。ＥＲＮＩＥモデルの推定値を信頼度とし、すなわち、信頼度＝ｓｏｆｔｍａｘ（ｙ）、ただし、ｙは、ＥＲＮＩＥモデルにより予測された極性ベクトルである。

図２に示す実施例から分かるように、本開示の第２の実施例を用いてデータマイニングを行い、マイニングすると同時に、マイニングしたデータを３つのタイプに直接分割することができる。

図３を参照すると、図３は、本開示に係るデータマイニング方法が世論システムに適用される世論データ分類の模式図であり、図３に示すように、世論ｂａｄｃａｓｅデータは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの３つのタイプに分けることができる。

データの品質が低いタイプは、マッチングする異なる特定のルールによって、タイトルが短すぎるサブタイプ、タイトルが長すぎるサブタイプ、タイトルが空であるサブタイプ、要約が短すぎるサブタイプ、要約が空であるサブタイプ、要約が長すぎるサブタイプ、文章内容が重複するサブタイプ、タイトルが化けているサブタイプ、要約が化けているサブタイプ、文章内容が化けているサブタイプ、デッドリンクのサブタイプ及びタイトルと要約とが一致しないサブタイプというこの１２個のサブタイプにさらに分けることができる。もちろん、マッチングルールを追加すると、データ品質の低い世論データは、より多くのサブタイプに分けることができる。

内容の品質が低いタイプは、文章の内容に基づいて、ポルノ関連データ、広告データ及びギャンブル関連データの３つのサブタイプにさらに分けることができる。

感情的分析が正確でないタイプは、感情極性の具体的な誤りに基づいて、ネガティブ判断の誤り、ポジティブ判断の誤り及び決定不能の３つのサブタイプにさらに分けることができる。

上記のデータマイニング方法を使用して、ウェブページデータから所定量のｂａｄｃａｓｅを発見することができる。実際の応用では、マイニングの結果をより正確にするために、手動で審査してもよい。具体的には、図４ａを参照すると、図４ａは、本開示に係るデータマイニング方法の第３の実施例のフローチャートであり、図４ａに示すように、該プロセスに、図２に基づいて以下のステップが追加されている。

ステップＳ４１０において、データタイプが決定された各文章をマイニングされたデータとして研究開発ユーザに出力して審査させる。

ステップＳ４２０において、審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力する。

本実施例では、従来の手動審査方法とは異なってもよく、ｅｘｃｅｌモードを用いなくてもよい。本実施例では、百度のａｍｉｓプラットフォームを用いて審査することができ、複数人による審査をサポートする。審査完了結果をデータベースに同期して入力し、リアルタイム統計及び審査率の計算をサポートし、リアルタイムでレポートを作成する。

図４ｂを参照すると、図４ｂは、本開示に係るデータマイニング方法が世論システムに適用される世論分析の全過程の模式図である。図４ｂに示すように、先ず世論システムによって生成された文章を取得し、そして上記の世論データマイニング方法を採用して、各文章に対して品質分析を行い、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの低品質文章を取得し、手動でプラットフォームにおいて審査して、低品質問題を得て、そして、システムがニーズカードを自動的に作成し、開発者がこれらの問題を修復し、問題が修復された後、世論システムによって生成された文章を取得する工程に戻り、世論分析結果を再生成する。このように、データ生産から世論監視（すなわち、世論データのマイニング）、問題修復、生産データまでの閉ループが形成される。

本実施例では、百度のａｍｉｓプラットフォームにより提供されるカード自動新規作成機能を使用してもよい。ユーザがカード新規作成ボタンをクリックすると、ニーズカードを自動的に新規作成することができる。ニーズカードは、各世論データのタイプが１つのニーズカードに対応するように、ｂａｄｃａｓｅのタイプ定義に基づいて新規作成されたものである。ニーズカードに表示されている情報は、ｂａｄｃａｓｅのタイプ、ｂａｄｃａｓｅの数、修復優先度及びｂａｄｃａｓｅの発見段階を含むことができる。該タイプのｂａｄｃａｓｅの具体的なジャンプリンクをさらに含むことができ、研究開発者は、具体的にどのｂａｄｃａｓｅがあるかを容易に確認して、修復と標記を行う。

修復優先度については、現在、該種類のｂａｄｃａｓｅの数が全マイニングサンプルの量（ｂａｄｃａｓｅリコール率）に占める比率に主に依存する。

具体的な等級付けルールは以下の通りである。

リコール率≧３％の場合、Ｐ０－Ｈｉｇｈｅｓｔとして等級付け、１％＜リコール率＜３％の場合、Ｐ１－Ｍｉｄｄｌｅとして等級付け、リコール率≦１％の場合、Ｐ２－Ｌｏｗとして等級付ける。

本実施例では、問題修復の方法は多種ある。最も直接的な修復方法は、システムのデータベースからこのタイプのすべてのｂａｄｃａｓｅを削除して、オンラインに表示しないことである。しかし、世論の文章庫がリアルタイムで更新されているため、この方法は、問題を一時的に解決するが、根本的に解決できない。従って、ポリシーアルゴリズムを最適化してもよい。具体的なＢａｄｃａｓｅには異なる解決策を必要とする。

タイトル又は要約が短すぎる／長すぎる／空であるタイプ、タイトル又は要約が化けているタイプ、デッドリンクタイプ、文章内容が重複しているタイプのｂａｄｃａｓｅに対する修復案は、以下のとおりである。

世論システムは、文章を生成するとき、自体がフィルタリングシステムを有し、世論システムは、文章を生成するとき、関連閾値を設定し、又は、サイトのホワイトリストを最適化する。

タイトルと要約とが一致しない場合：この場合、世論システムにより使用される要約抽出モデルの効果が期待を満たしなかったことを表し、対応するモデルポリシーを最適化する必要がある。

広告、ギャンブル、ポルノのようなｂａｄｃａｓｅも、モデル面から最適化する必要がある。

感情的分析が正確でない場合：感情的分析のｂａｄｃａｓｅが現れた場合、世論システムにより使用される感情的分析モデルアルゴリズムがいくつかのｂａｄｃａｓｅに対して機能しなかったことを表し、具体的なｂａｄｃａｓｅを分析し、トレーニングセットを拡充し、モデルを再トレーニングする必要がある。

本開示の実施例によれば、本開示は、データマイニング装置をさらに提供する。

図５を参照すると、図５は、本開示に係るデータマイニング装置の第１の実施例の構造模式図であり、図５に示すように、該データマイニング装置は、マイニングすべき現在の文章を取得するための現在の文章取得モジュール５１０と、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュール５２０であって、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュール５２０と、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュール５３０と、前記タイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュール５４０とを含む。

上記の実施例から分かるように、本開示は、予め設定された多種のデータ認識ポリシーに基づいて、ウェブページデータに対してデータ分類マイニングを行い、異なるタイプのデータを効果的にマイニングできる、データマイニング装置を提供する。現在よく使われたウェブページデータの手動マイニングに比べて、効率がより高く、より正確である。

本実施例では、データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含むことができる。

図６を参照すると、図６は、本開示に係るデータマイニング装置の第２の実施例の構造模式図であり、図６に示すように、該データマイニング装置では、図５に基づいて、情報値取得モジュール５２０は、具体的には、データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するための第１の情報値取得サブモジュール５２１と、内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するための第２の情報値取得サブモジュール５２２と、感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するための第３の情報値取得サブモジュール５２３とを含む。

図６に示すように、前記データタイプ認識モジュール５３０は、具体的には、データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得るための第１の認識サブモジュール５３１と、内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第２の認識結果を得るための第２の認識サブモジュール５３２と、感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第３の認識結果を得るための第３の認識サブモジュール５３３とを含む。

前記第１の認識サブモジュール５３１は、具体的には、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる。

前記第１の情報値取得サブモジュール５２１は、さらに、前記現在の文章のＵＲＬ情報を取得するために用いられ、前記第１の認識サブモジュール５３１は、さらに、具体的には、予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出し、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる。

前記第２の認識サブモジュール５３２は、現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを１回目マッチングし、第１のキーワードマッチング結果を得るための第１のマッチングユニットと、

第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するための決定ユニットとを含むことができる。

前記決定ユニットは、具体的には、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられ、又は、前記決定ユニットは、具体的には、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを２回目マッチングし、第２のキーワードマッチング結果を得、第２のキーワードマッチング結果が２回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではなく、第２のキーワードマッチング結果が２回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるために用いられ、又は、前記決定ユニットは、具体的には、前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられる。

前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第１の感情極性分析アルゴリズムを用いて分析して取得されるものである。

前記第３の認識サブモジュール５３３は、具体的には、前記第１の感情極性分析アルゴリズムと異なる第２の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得て、現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するために用いられる。

図７を参照すると、図７は、本開示に係るデータマイニング装置の第３の実施例の構造模式図であり、図７に示すように、該データマイニング装置は、図６に基づいて、データタイプが決定された各ウェブページ文章をマイニングされたデータとして研究開発ユーザに出力して審査させるための審査モジュール７１０と、審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力する統計モジュール７２０とをさらに含む。

本開示の技術的解決手段に係るユーザの個人情報の取得、記憶及び応用などは、いずれも関連法律法規の規定に適合し、かつ公序良俗に違反しない。

本開示の実施例によれば、本開示に、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさら提供する。

図８は、本開示の実施例を実施するための例示的な電子機器８００の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図しない。

図８に示すように、電子機器８００は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されるコンピュータプログラム又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にアップロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行できる計算ユニット８０１を含む。ＲＡＭ８０３には、記憶デバイス８００の動作に必要な様々なプログラムおよびデータを記憶することもできる。計算ユニット８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続されている。

電子機器８００における複数のコンポーネント（キーボードやマウスなどの入力ユニット８０６と、種々なディスプレイやスピーカなどの出力ユニット８０７と、磁気ディスクや光学ディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット８０９とを含む）は、Ｉ／Ｏインタフェース８０５に接続されている。通信ユニット８０９は、機器８００がインターネットのようなコンピュータネット及び／又は種々なキャリアネットワークを介してその他の機器と情報／データを交換することを許可する。

計算ユニット８０１は、様々な処理及び計算能力を有する汎用及び／又は特定用途向け処理ユニットであってもよい。計算ユニット８０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の手動知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット８０１は、前述した各方法及び処理、例えば、上記のいずれかのデータマイニング方法を行う。例えば、いくつかの実施例では、データマイニング方法は、記憶ユニット８０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全ては、ＲＯＭ８０２及び／又は通信ユニット８０９を介して、機器８００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ８０３にロードされて計算ユニット８０１によって実行される場合に、前述したデータマイニング方法の１つの又は複数のステップを実行することができる。追加的に、他の実施例では、計算ユニット８０１は、他の任意の適当な方式（例えば、ファームウェアを借りる）により上記任データマイニング方法を実行するように構成される。

本明細書の説明されたシステム及び技術の様々な実施の形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実施されることを含み、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈でき、このプログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置から、データおよび命令を受信し、データおよび命令を記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に送信できる。

本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び／又はブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、又は完全にリモートマシン又はサーバで実行されてもよい。

本開示のコンテキストでは、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、１つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ‐ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。

ユーザとのインタラクションを提供するために、情報をユーザに表示するディスプレイデバイス（例えばＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードとポインティング装置（例えば、マウス又はトラックボール）を有するコンピュータ上で、ここで説明されたシステム及び技術が実現されてもよい。ユーザは、該キーボード及び該ポインティング装置によって入力をコンピュータに提供できる。他の種類の装置は、さらに、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザへ提供されるフィードバックは、任意の適切な形式の感覚フィードバック（例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、任意の形式（音響入力、音声入力又は、触覚入力）で受信されてもよい。

ここで説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）において、または、フロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがここで説明されたシステム及び技術の実施の形態とインタラクションできるグラフィカルユーザインタフェース又はネットワークブラウザを有するユーザコンピュータ）、又は、そのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の適切な組み合わせを含むコンピューティングシステムにおいて実現されてもよい。システムのコンポーネントは、任意の適切な形態または媒体のデジタルデータ通信（例えば通信ネットワーク）により相互接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに遠隔にあり、典型的には通信ネットワークを介してインタラクションする。クライアントおよびサーバの関係は、対応するコンピュータ上で実行され互いにクライアント・サーバ関係を有するコンピュータプログラムにより生じる。

上記の様々な形式のプロセスを使用して、ステップを並べ替えたり、追加したり、削除したりすることができることが理解されたい。例えば、本開示に記載の各ステップは、並列に実行してもよいし、順次に実行してもよいし、異なる順序で実行してもよい。

上記実施の形態は、本開示の保護範囲に対する制限を構成するものではない。設計要件およびその他の要因に応じて、様々な修正、組合せ、サブ組合せ、および代替が可能であることは、当業者には理解されるであろう。本開示の精神および原則の範囲内で行われた修正、同等置換や改善などは、本開示の保護の範囲内に含まれるべきである。

Claims

データマイニング方法であって、
マイニングすべき現在の文章を取得するステップと、
予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するステップであって、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである、ステップと、
前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るステップと、
前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するステップとを含む、データマイニング方法。
前記データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含み、
予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得する前記ステップは、
データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するステップと、
内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するステップと、
感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するステップとを含む、請求項１に記載の方法。
前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得る前記ステップは、
データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得るステップと、
内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第２の認識結果を得るステップと、
感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第３の認識結果を得るステップとを含む、請求項２に記載の方法。
前記データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得るステップは、
前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップを含む、請求項３に記載の方法。
前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定する前記ステップは、
前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたテキスト長さルール又は化けルール及び文章タイトルと文章要約とがマッチングするか否かのルールのうちの１つ又は複数のルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップを含む、請求項４に記載の方法。
前記文章タイトルと文章要約とがマッチングするか否かのルールは、
現在の文章が文章タイトルと文章要約のテキストとがマッチングしないこと、及び文章タイトルと文章要約のセマンティクスとがマッチングしないことのうちの少なくとも１つを満たした場合、前記現在の文章がデータ品質の低いタイプのデータであると決定することを含む、請求項５に記載の方法。
予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得する前記ステップは、前記現在の文章のＵＲＬ情報を取得するステップをさらに含み、
データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得る前記ステップは、
予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出するステップと、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップとをさらに含む、請求項４に記載の方法。
内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第２の認識結果を得る前記ステップは、
現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを１回目マッチングし、第１のキーワードマッチング結果を得るステップと、
第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するステップとを含む、請求項３に記載の方法。
第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するステップを含み、又は、
第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを２回目マッチングし、第２のキーワードマッチング結果を得るステップと、
第２のキーワードマッチング結果が２回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではないステップと、第２のキーワードマッチング結果が２回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるステップとを含み、又は、
第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定するステップと、
前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断するステップと、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するステップとを含む、請求項８に記載の方法。
前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第１の感情極性分析アルゴリズムを用いて分析して取得されるものであり、
感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第３の認識結果を得る前記ステップは、
前記第１の感情極性分析アルゴリズムと異なる第２の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得るステップと、
現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するステップとを含む、請求項３に記載の方法。
現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定する前記ステップは、
前記現在の感情極性と前記感情極性ラベルの極性とが逆である否か、かつ前記第２の感情極性分析アルゴリズムによって出力された現在の感情極性の信頼度が予め設定された閾値以上であるか否かを判断し、そうである場合、前記現在の文章が感情的分析が正確でないタイプのデータであると決定するステップを含む、請求項１０に記載の方法。
データタイプが決定された各文章をマイニングされたデータとして研究開発ユーザに出力して審査させるステップと、
審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力するステップとをさらに含む、請求項１～１１いずれかに記載の方法。
データマイニング装置であって、
マイニングすべき現在の文章を取得するための現在の文章取得モジュールと、
予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュールであって、各種のデータ認識ポリシーは、１種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュールと、
前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュールと、
前記タイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュールとを含む、データマイニング装置。
前記データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含み、
前記情報値取得モジュールは、
データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するための第１の情報値取得サブモジュールと、
内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するための第２の情報値取得サブモジュールと、
感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するための第３の情報値取得サブモジュールとを含む、請求項１３に記載の装置。
前記データタイプ認識モジュールは、
データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第１の認識結果を得るための第１の認識サブモジュールと、
内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第２の認識結果を得るための第２の認識サブモジュールと、
感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第３の認識結果を得るための第３の認識サブモジュールとを含む、請求項１４に記載の装置。
前記第１の認識サブモジュールは、具体的には、
前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる、請求項１５に記載の装置。
前記第１の情報値取得サブモジュールは、さらに、前記現在の文章のＵＲＬ情報を取得するために用いられ、
前記第１の認識サブモジュールは、さらに、具体的には、
予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出し、現在の文章のＵＲＬにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる、請求項１５に記載の装置。
前記第２の認識サブモジュールは、
現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを１回目マッチングし、第１のキーワードマッチング結果を得るための第１のマッチングユニットと、
第１のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するための決定ユニットとを含む、請求項１５に記載の装置。
前記決定ユニットは、具体的には、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられ、又は、
前記決定ユニットは、具体的には、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを２回目マッチングし、第２のキーワードマッチング結果を得て、
第２のキーワードマッチング結果が２回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではなく、第２のキーワードマッチング結果が２回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるために用いられ、又は、
前記決定ユニットは、具体的には、
前記第１のマッチング結果が１回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、
前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられる、請求項１８に記載の装置。
前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第１の感情極性分析アルゴリズムを用いて分析して取得されるものであり、
前記第３の認識サブモジュールは、具体的には、
前記第１の感情極性分析アルゴリズムと異なる第２の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得て、
現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するために用いられる、請求項１５に記載の装置。
データタイプが決定された各ウェブページ文章をマイニングされたデータとして研究開発ユーザに出力して審査させるための審査モジュールと、
審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力するための統計モジュールとをさらに含む、請求項１３～２０いずれかに記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリとを含み、
前記メモリには前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが請求項１～１１のいずれかに記載の方法を実行できる、電子機器。
コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１～１１のいずれかに記載の方法を実行させるために用いられる、記憶媒体。
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサにより実行されると、請求項１～１１のいずれかに記載の方法を実現する、コンピュータプログラム製品。