JP2023008943A - データマイニング方法、装置、電子機器及び記憶媒体 - Google Patents

データマイニング方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2023008943A
JP2023008943A JP2022105372A JP2022105372A JP2023008943A JP 2023008943 A JP2023008943 A JP 2023008943A JP 2022105372 A JP2022105372 A JP 2022105372A JP 2022105372 A JP2022105372 A JP 2022105372A JP 2023008943 A JP2023008943 A JP 2023008943A
Authority
JP
Japan
Prior art keywords
data
type
current
text
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022105372A
Other languages
English (en)
Inventor
マオ,チン
Qin Mao
ゾウ,ペイ
Pei Zou
ジャン,ユエ
Yue Zhang
リウ,ヤン
Yan Liu
デン,ハイチャオ
Haichao Deng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023008943A publication Critical patent/JP2023008943A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】インターネットビッグデータ処理技術におけるデータマイニング方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、マイニングすべき現在の文章を取得するステップと、予め設定された多種のデータ識別ポリシーに基づいて、現在の文章から、1種の予め設定された種類のデータを認識するための各種のデータ識別ポリシーに必要な情報値を取得するステップと、各種のデータ識別ポリシーをそれぞれ利用し、識別ポリシーに必要な情報値に基づいて、現在の文章に対してデータ種類識別を行い、データ種類識別結果を得るステップと、種類識別結果に応じて、現在の文章がいずれかの予め設定された種類のデータに属するか否かを決定するステップと、を含む。【選択図】図1

Description

本開示は、インターネットの技術分野に関し、特にインターネットビッグデータ処理技術におけるデータマイニング方法、装置、電子機器及び記憶媒体に関する。
現在、多くの企業は、生成されたインターネットデータを分析し、必要なデータをマイニングし、マイニングされたデータに基づいてさらに処理する必要がある。例えば、企業がインターネットデータに対して世論分析を行うように助けるために、主にリアルタイムで世論を監視し、突発的な世論をタイムリーに警報する世論分析システムが現れた。
大量のインターネットデータから必要なデータを効率的にマイニングすることは、ネットワークデータ処理を行う重要なステップであることが分かる。具体的には、世論分析にとって、どのように大量のインターネットデータの中から世論データを効果的にマイニングするかは、世論分析を行う最も重要な一環である。
本開示は、必要なデータを効率的にマイニングできるデータマイニング方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、データマイニング方法が提供され、この方法は、マイニングすべき現在の文章を取得するステップと、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するステップであって、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである、ステップと、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るステップと、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定する。
本開示の他の態様によれば、データマイニング装置が提供され、このデータマイニング装置は、データをマイニングすべきインターネットデータのうちの現在の文章を取得するための現在の文章取得モジュールと、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュールであって、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュールと、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュールと、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュールとを含む。
本開示の他の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリとを含む電子機器が提供され、前記メモリには前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが上記いずれかの方法を実行できる。
本開示の他の態様によれば、コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータ命令は、前記コンピュータに上記いずれかの方法を実行させるためのものである。
本開示の他の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品が提供され、前記コンピュータプログラムがプロセッサにより実行されると、上記いずれかの方法を実現する。
本明細書に記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を表すことを意図するものではなく、本開示の範囲を制限するためのものでもないことを理解されたい。本開示の他の特徴は、以下の説明書によって容易に理解される。
図面は、本発明をより良く理解するようにするためのものであり、本開示を限定しない。
本開示に係るデータマイニング方法の第1の実施例のフローチャートである。 本開示に係るデータマイニング方法の第2の実施例のフローチャートである。 本開示に係るデータマイニング方法が世論システムに適用される世論データ分類の模式図である。 本開示に係るデータマイニング方法の第3の実施例のフローチャートである。 本開示に係るデータマイニング方法が世論システムに適用される世論分析の全過程の模式図である。 本開示に係るデータマイニング装置の第1の実施例の構造模式図である。 本開示に係るデータマイニング装置の第2の実施例の構造模式図である。 本開示に係るデータマイニング装置の第3の実施例の構造模式図である。 本開示の実施例のデータマイニング方法を実現するための電子機器のブロック図である。
以下、図面を参照して、本開示の例示的な実施形態を説明する。本開示の実施形態の様々な詳細は、理解を容易にするためのものであり、単なる例であると考えるべきである。したがって、当業者は、本開示の範囲および要旨から逸脱することなく、本明細書に記載された実施形態に対して様々な変更および修正を行うことができる。同様に、以下の説明では、公知機能および構造についての説明は、明瞭かつ簡明のために省略される。
本開示は、必要なデータを効果的にマイニングできるデータマイニング方法、装置、電子機器及び記憶媒体を提供し、以下、詳細に説明する。
図1を参照すると、図1は、本開示に係るデータマイニング方法の第1の実施例のフローチャートであり、図1に示すように、該方法は、ステップS110~ステップS140を含む。
ステップS110において、マイニングすべき現在の文章を取得する。
ステップS120において、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得し、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである。
ステップS130において、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得る。
ステップS140において、前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定する。
上記の実施例から分かるように、本開示に係るデータマイニング方法は、予め設定された多種のデータ認識ポリシーに基づいて、ウェブページデータに対してデータ分類マイニングを行い、異なるタイプのデータを効果的にマイニングすることができる。現在よく使われているウェブページデータを手動でマイニングすることに比べて、より効率的で正確である。
本開示は、マイニングすべきデータをデータ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの3つのタイプに分ける。
本開示に係るデータマイニング方法は、世論システムに適用できる。世論データの分類マイニングを実現するために、世論システムにおける世論データをデータ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの3つのタイプに分けることができる。
このように、世論データマイニングを行うとき、この3つのタイプに対してマイニングすることができ、この後にこの3つのタイプの世論データを直接マイニングして分類処理することに、便利な条件を提供する。
文章は、世論システムの最も基本的な要素であり、データの品質が低いということは、文章自体の品質状況を測ることである。文章自体のデータ品質が低すぎるとユーザに与える影響が大きく、従って、後続の処理で直接フィルタリングするように、データ品質の低い文章をマイニングする必要がある。
内容品質の低い文章ということは、文章を理解して、文章が広告、ポルノやギャンブルなどに属するか否かを確認することである。このような内容品質の低い文章は悪影響を与え、従って、後続の研究開発者が内容フィルタリングアルゴリズムを改良するように、内容品質の低い文章をマイニングする必要がある。
文章の感情分類は、世論分析の特徴的な機能であり、感情的分析の正確性が特に重要であり、従って、後続の研究開発者が感情極性分析のアルゴリズムを改良するように、感情的分析が正確でない文章をマイニングする必要がある。
図2を参照すると、図2は、本開示に係るデータマイニング方法の第2の実施例のフローチャートであり、図2に示すように、該フローチャートは、図1を基づいて、ステップS120及びS130を詳細化する。
具体的には、ステップS120は、ステップS121~ステップS123を含むことができる。
ステップS121において、データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得する。
本開示の技術的解決手段が世論システムに適用されている場合、データ品質の低いタイプの世論データについて、本開示で採用できる世論データ認識ポリシーは主にルールマッチングである。本実施例では、文章タイトル、文章要約及び文章内容に対する属性マッチングルールが定義されている。従って、本ステップにおいて、現在の文章から文章タイトル、文章要約及び文章内容を取得できる。
本実施例では、データ品質の低い世論データに対して採用できる認識ポリシーは、主に、ルールマッチングである。このルールマッチング認識ポリシーは、介入しやすく、badcaseの評定範囲を拡張しようとすると、ルールを直接追加すればよい。また、解釈性がより高く、badcaseを発見すると、どのルールに当たるかを直接検索できる。また、複数の分野間を移ることができ、大量の人件費を節約し、例えば、世論システムから推薦システムに移ったり、政務世論から企業世論に移ったりすることができる。
ステップS122において、内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出する。
本開示の技術的解決手段が世論システムに適用されている場合、内容品質の低いタイプの世論データについて、本開示で採用できる世論データ認識ポリシーは、主に、キーワードマッチングである。従って、本ステップにおいて、現在の文章からキーワードを抽出できる。
ステップS123において、感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得する。
本開示の技術的解決手段が世論システムに適用されている場合、感情的分析が正確でない世論データについて、本開示で採用できる世論データ認識ポリシーは、主に、発表された感情極性ラベルが正確であるか否かを異なる感情極性分析アルゴリズムによって検証することである。従って、本ステップにおいて、現在の文章から、発表された感情極性ラベルを取得できる。
具体的には、ステップS130において、ステップS131~ステップS133を含むことができる。
ステップS131において、データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得る。
本開示の技術的解決手段が世論システムに適用されている場合、本ステップは、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定するステップであってもよい。
文章タイトル、文章要約、文章内容の3つの属性について、本開示では、長さが長すぎるか否か/短すぎるか否かのルール、空であるか否かのルール、化けしているか否かなどのルールを定義することができる。したがって、本ステップは、具体的には、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたテキスト長さルール又は化けルール及び文章タイトルと文章要約とがマッチングするか否かのルールのうちの1つ又は複数のルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定するステップであってもよい。
このように、本実施例では、データ品質の低い世論データをマイニングする工程で、異なるルールに従って、これらの世論データをタイトルが短すぎたり長すぎたりするサブタイプ、要約が短すぎたり長すぎたりするサブタイプ、タイトルが空であるサブタイプ、要約が空であるサブタイプや、内容が重複するサブタイプなどのサブタイプにさらに分けることができる。
また、本開示では、タイトルと要約とがマッチングするか否かのルールを定義することができる。このルールは、現在の文章が文章タイトルと文章要約のテキストとがマッチングしないこと、及び文章タイトルと文章要約のセマンティクスとがマッチングしないことのうちの少なくとも1つを満たした場合、前記現在の文章がデータ品質の低いタイプの世論データであると決定することを含む。このように、本ステップは、さらに、タイトルと要約とがマッチングか否かを判断することにより、現在の文章がデータ品質の低いタイプの世論データであるか否かを決定することができる。以上から分かるように、本実施例では、タイトルと要約とがマッチングか否かによって、データ品質の低い世論データを認識することができる。
具体的には、本ステップにおいて、タイトルと要約とがマッチングか否かを計算するために、多種の計算指標を採用している。まず、テキストマッチング度である。タイトルと要約のそれぞれからワードを選択し、タイトルワードセットと要約ワードセットの2つのセットの重複割合を計算する。そして、セマンティクスマッチング度である。まず、中国語のNLPプリトレーニングモデル(ERNIEモデル)からタイトルと要約のベクトルを得て、タイトルベクトルと要約ベクトルの2つのベクトルのコサイン(cos)距離を計算する。重複割合及びcos距離のそれぞれが予め設定されたマッチング条件を満たす場合、文章タイトルと文章要約とがマッチングされると決定する。例えば、タイトルワードセットと要約ワードセットとの重複割合が予め設定された重複閾値以上であり、かつタイトルベクトルと要約ベクトルcosとの距離が予め設定された距離閾値未満である場合、文章タイトルと文章要約とがマッチングされると決定する。
また、本開示は、さらに、URL属性について、デッドリンク定期的検出などのルールを定義することができる。従って、上記ステップ121において、前記現在の文章のURL情報を取得することができる。
本ステップにおいて、予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のURLにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出するステップと、現在の文章のURLにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するするステップとをさらに含むことができる。
具体的な方式は、前記URLに定期的にアクセスし、3回(または3回以上)連続で戻った応答コードが該URLにアクセスできないことを表す場合、デッドリンク現象が生じており、現在の文章がデータ品質の低いタイプのデータであると決定する。本実施例では、連続回数は限定されず、研究開発者によって実際場合に応じて設定されてもよい。
このように、本実施例では、URL検出により、アクセスできなかった文章を検出し、それにより、データの品質が低いデータを認識することができる。
図2に示すように、ステップS132において、内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第2の認識結果を得る。
本ステップにおいて、現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを1回目マッチングし、第1のキーワードマッチング結果を得て、第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する。
本実施例では、内容品質の低いデータは、主に広告、ポルノ、ギャンブルの3つの種類のデータである。
具体的には、本開示の技術的解決手段が世論システムに適用されている場合、この3つの種類のデータについては、異なる方法で決定してもよい。
第1には、広告データについては、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプの世論データであると決定する。
このように、1回マッチングすることにより、現在の文章が広告データであるか否かを判断できる。
予め設定された内容品質の低いタイプの世論データに対応するキーワードは、予め記憶された手動で選ばれた高頻度の広告キーワードであってもよいし、ネットワークからダウンロードされた広告キーワードテーブルのうちの広告キーワードが追加されてもよい。
ネットワークからダウンロードされた広告キーワードテーブルを用いて1回目マッチングすることにより、認識のカバー範囲を広げ、汎化能力をさらに向上させることができる。
もちろん、このような方法は、ポルノ及びギャンブルに関連するデータに対して世論データ認識を行うことができる。
第2には、ポルノに関連するデータについては、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを2回目マッチングし、第2のキーワードマッチング結果を得る。第2のキーワードマッチング結果が2回目のマッチングに成功したことを表す場合、前記現在の文章は、内容品質の低いタイプの世論データではなく、第2のキーワードマッチング結果が2回目のマッチングに成功しなかったことを表す場合、前記現在の文章は、内容品質の低いタイプの世論データである。
具体的には、本実施例は、モデル+ルールのポリシーを用いてポルノ関連データを認識することができる。実施例では、1回目のキーワードマッチングは、予め設定された、ポルノキーワードに基づいてトレーニングされたポルノモデルを用い、現在の文章のキーワードをポルノモデルに入力して、該現在の文章のキーワードがポルノキーワードを含むか否か、どのポルノキーワードを含むかの出力結果を取得する。ポルノモデルがポルノキーワードを出力した場合、1回目のマッチングに成功したことを表す。そして、2回目のマッチングルールを用いて現在の文章のキーワードを2回目マッチングし、すなわち、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを2回目マッチングし、第2のキーワードマッチング結果を得る。ここでの信頼できるキーワードは、予め手動で抽出されたもの、例えば、「警察」、「○○メディア報道」などである。このように、現在の文章がこれらの信頼性の高いキーワードに当たる場合、ポルノラベルをキャンセルする。
このように、2回のキーワードマッチングによって、ポルノに関連するデータを正確に認識でき、それにより、badcaseの誤認識率を低減させる。
もちろん、このような方法は、広告及びギャンブルに関連するデータに対する世論データ認識にも適用できる。
第3には、ギャンブルに関連するデータについては、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、前記現在のウエブサイトが予め設定された内容品質の低いタイプの世論データの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプの世論データであると決定する。
具体的には、本実施例では、キーワード+ギャンブルウエブサイトのフィルタリングワードによってマイニングすることができ、実際のシーンでは、ギャンブル内容がより晦渋であることが多く、タイトル又はテキスト内容を通じて発見しにくいため、一連のギャンブルウエブサイトを予め決定し、キーワード+ギャンブルウエブサイトによってマイニングする。前記第1のマッチング結果が1回目のマッチングに成功したことを表し、つまり、現在の文章中のあるキーワードが、予め設定されたギャンブルに関連するキーワードとマッチングした場合、現在の文章の属する現在のウエブサイトが上記のギャンブルウエブサイトに属するか否かをさらに判断し、そうである場合、前記現在の文章がギャンブルに関連する内容品質の低いタイプの世論データであると決定する。
このように、ギャンブルに関連する世論データをマイニングでき、ギャンブルに関連する世論データマイニングの正確性をさらに向上させる。
もちろん、このような方法は、広告及びポルノに関連するデータに対する世論データ認識にも適用できる。
図2を参照すると、ステップS133において、感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第3の認識結果を得る。
感情的分析は、成熟した技術であり、いくつかの成熟した感情極性分析アルゴリズムがあり、例えば、辞書ベースの感情極性分析アルゴリズム、最近傍アルゴリズム(k_NN)ベースの感情極性分析アルゴリズム、ベキス(Bayes)ベースの感情極性分析アルゴリズム、最大エントロピーベースの感情極性分析アルゴリズム、サポートベクタマシンSVMベースの感情極性分析アルゴリズムなどがある。
本実施例では、現在の文章の感情極性ラベルは、前記現在の文章の発表中において第1の感情極性分析アルゴリズムを用いて分析して取得されるものであってもよい。
このように、第1の感情極性分析アルゴリズムと異なる第2の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得ることができる。
そして、現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定する。
このように、本実施例によって、感情的分析が正確でない文章を正確にマイニングでき、この後に感情極性分析アルゴリズムをさらに調整するに有利なデータサポートを提供する。
具体的には、本開示の技術的解決手段が世論システムに適用されている場合、前記現在の感情極性と前記感情極性ラベルの極性とが逆である否か、かつ前記第2の感情極性分析アルゴリズムによって出力された現在の感情極性の信頼度が予め設定された閾値以上であるか否かを判断し、そうである場合、前記現在の文章が感情的分析が正確でないタイプの世論データであると決定する。
実際の感情的分析シーンでは、本開示の発明者は、ポジティブ極性及びネガティブ極性の文章についての感情的分析誤りへのユーザの反感の度合いが、ニュートラル極性の誤りよりも遥かに大きいことを発見した。つまり、ユーザは、ポジティブ及びネガティブ傾向についての判定に非常に敏感である。例えば、「○○がある罪で懲役3年の判決を受けた」という文の感情的傾向は、ニュートラルであってもよいし、ネガティブであってもよい。しかし、この文がポジティブと判定されると、受け入れられにくい。また例えば、「7月1日から、A市はごみの分別を全面的に推進する」という文の感情的傾向は、ニュートラルであってもよいし、ポジティブであってもよいが、ネガティブと判定されると、明らかな誤りである。
従って、以上のユーザの心理に対する観察分析に基づいて、本開示で採用される、感情的分析が正確でないタイプのデータをマイニングするルールは、3点を含むことができる。a、第2の感情極性分析アルゴリズムを用いて得られた現在の感情極性と、第1の感情極性分析アルゴリズムを用いて得られた感情極性ラベルの極性とは反対である。b、反対の極性とは、ポジティブ及びネガティブである。c、第2の感情極性分析アルゴリズムで得られた現在の感情極性の信頼度が0.95以上である。以上の3つのルールを全部満たした場合、感情的分析が正確でないbadcaseと判定する。
以上から分かるように、本実施例おいて、この3つのルールによる、感情的分析が正確でない世論データに対するマイニング方式は、ユーザの心理に合致し、このようにマイニングされた感情的分析が正確でない世論データはより正確である。
第2の感情極性分析アルゴリズムは、NLPCツールにより提供される分析アルゴリズムであってもよい。第1の感情極性分析アルゴリズムは、NLPCツールにより提供される分析アルゴリズムとは異なる感情的分析アルゴリズムである。
具体的には、NLPCは、まず大きなデータセットで言語モデルERNIEを予めトレーニングし、そしてERNIEに基づいて感情極性分類モデルをトレーニングする。ERNIEモデルの推定値を信頼度とし、すなわち、信頼度=softmax(y)、ただし、yは、ERNIEモデルにより予測された極性ベクトルである。
図2に示す実施例から分かるように、本開示の第2の実施例を用いてデータマイニングを行い、マイニングすると同時に、マイニングしたデータを3つのタイプに直接分割することができる。
図3を参照すると、図3は、本開示に係るデータマイニング方法が世論システムに適用される世論データ分類の模式図であり、図3に示すように、世論badcaseデータは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの3つのタイプに分けることができる。
データの品質が低いタイプは、マッチングする異なる特定のルールによって、タイトルが短すぎるサブタイプ、タイトルが長すぎるサブタイプ、タイトルが空であるサブタイプ、要約が短すぎるサブタイプ、要約が空であるサブタイプ、要約が長すぎるサブタイプ、文章内容が重複するサブタイプ、タイトルが化けているサブタイプ、要約が化けているサブタイプ、文章内容が化けているサブタイプ、デッドリンクのサブタイプ及びタイトルと要約とが一致しないサブタイプというこの12個のサブタイプにさらに分けることができる。もちろん、マッチングルールを追加すると、データ品質の低い世論データは、より多くのサブタイプに分けることができる。
内容の品質が低いタイプは、文章の内容に基づいて、ポルノ関連データ、広告データ及びギャンブル関連データの3つのサブタイプにさらに分けることができる。
感情的分析が正確でないタイプは、感情極性の具体的な誤りに基づいて、ネガティブ判断の誤り、ポジティブ判断の誤り及び決定不能の3つのサブタイプにさらに分けることができる。
上記のデータマイニング方法を使用して、ウェブページデータから所定量のbadcaseを発見することができる。実際の応用では、マイニングの結果をより正確にするために、手動で審査してもよい。具体的には、図4aを参照すると、図4aは、本開示に係るデータマイニング方法の第3の実施例のフローチャートであり、図4aに示すように、該プロセスに、図2に基づいて以下のステップが追加されている。
ステップS410において、データタイプが決定された各文章をマイニングされたデータとして研究開発ユーザに出力して審査させる。
ステップS420において、審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力する。
本実施例では、従来の手動審査方法とは異なってもよく、excelモードを用いなくてもよい。本実施例では、百度のamisプラットフォームを用いて審査することができ、複数人による審査をサポートする。審査完了結果をデータベースに同期して入力し、リアルタイム統計及び審査率の計算をサポートし、リアルタイムでレポートを作成する。
図4bを参照すると、図4bは、本開示に係るデータマイニング方法が世論システムに適用される世論分析の全過程の模式図である。図4bに示すように、先ず世論システムによって生成された文章を取得し、そして上記の世論データマイニング方法を採用して、各文章に対して品質分析を行い、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプの低品質文章を取得し、手動でプラットフォームにおいて審査して、低品質問題を得て、そして、システムがニーズカードを自動的に作成し、開発者がこれらの問題を修復し、問題が修復された後、世論システムによって生成された文章を取得する工程に戻り、世論分析結果を再生成する。このように、データ生産から世論監視(すなわち、世論データのマイニング)、問題修復、生産データまでの閉ループが形成される。
本実施例では、百度のamisプラットフォームにより提供されるカード自動新規作成機能を使用してもよい。ユーザがカード新規作成ボタンをクリックすると、ニーズカードを自動的に新規作成することができる。ニーズカードは、各世論データのタイプが1つのニーズカードに対応するように、badcaseのタイプ定義に基づいて新規作成されたものである。ニーズカードに表示されている情報は、badcaseのタイプ、badcaseの数、修復優先度及びbadcaseの発見段階を含むことができる。該タイプのbadcaseの具体的なジャンプリンクをさらに含むことができ、研究開発者は、具体的にどのbadcaseがあるかを容易に確認して、修復と標記を行う。
修復優先度については、現在、該種類のbadcaseの数が全マイニングサンプルの量(badcaseリコール率)に占める比率に主に依存する。
具体的な等級付けルールは以下の通りである。
リコール率≧3%の場合、P0-Highestとして等級付け、1%<リコール率<3%の場合、P1-Middleとして等級付け、リコール率≦1%の場合、P2-Lowとして等級付ける。
本実施例では、問題修復の方法は多種ある。最も直接的な修復方法は、システムのデータベースからこのタイプのすべてのbadcaseを削除して、オンラインに表示しないことである。しかし、世論の文章庫がリアルタイムで更新されているため、この方法は、問題を一時的に解決するが、根本的に解決できない。従って、ポリシーアルゴリズムを最適化してもよい。具体的なBadcaseには異なる解決策を必要とする。
タイトル又は要約が短すぎる/長すぎる/空であるタイプ、タイトル又は要約が化けているタイプ、デッドリンクタイプ、文章内容が重複しているタイプのbadcaseに対する修復案は、以下のとおりである。
世論システムは、文章を生成するとき、自体がフィルタリングシステムを有し、世論システムは、文章を生成するとき、関連閾値を設定し、又は、サイトのホワイトリストを最適化する。
タイトルと要約とが一致しない場合:この場合、世論システムにより使用される要約抽出モデルの効果が期待を満たしなかったことを表し、対応するモデルポリシーを最適化する必要がある。
広告、ギャンブル、ポルノのようなbadcaseも、モデル面から最適化する必要がある。
感情的分析が正確でない場合:感情的分析のbadcaseが現れた場合、世論システムにより使用される感情的分析モデルアルゴリズムがいくつかのbadcaseに対して機能しなかったことを表し、具体的なbadcaseを分析し、トレーニングセットを拡充し、モデルを再トレーニングする必要がある。
本開示の実施例によれば、本開示は、データマイニング装置をさらに提供する。
図5を参照すると、図5は、本開示に係るデータマイニング装置の第1の実施例の構造模式図であり、図5に示すように、該データマイニング装置は、マイニングすべき現在の文章を取得するための現在の文章取得モジュール510と、予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュール520であって、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュール520と、前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュール530と、前記タイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュール540とを含む。
上記の実施例から分かるように、本開示は、予め設定された多種のデータ認識ポリシーに基づいて、ウェブページデータに対してデータ分類マイニングを行い、異なるタイプのデータを効果的にマイニングできる、データマイニング装置を提供する。現在よく使われたウェブページデータの手動マイニングに比べて、効率がより高く、より正確である。
本実施例では、データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含むことができる。
図6を参照すると、図6は、本開示に係るデータマイニング装置の第2の実施例の構造模式図であり、図6に示すように、該データマイニング装置では、図5に基づいて、情報値取得モジュール520は、具体的には、データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するための第1の情報値取得サブモジュール521と、内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するための第2の情報値取得サブモジュール522と、感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するための第3の情報値取得サブモジュール523とを含む。
図6に示すように、前記データタイプ認識モジュール530は、具体的には、データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得るための第1の認識サブモジュール531と、内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第2の認識結果を得るための第2の認識サブモジュール532と、感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第3の認識結果を得るための第3の認識サブモジュール533とを含む。
前記第1の認識サブモジュール531は、具体的には、前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる。
前記第1の情報値取得サブモジュール521は、さらに、前記現在の文章のURL情報を取得するために用いられ、前記第1の認識サブモジュール531は、さらに、具体的には、予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のURLにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出し、現在の文章のURLにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる。
前記第2の認識サブモジュール532は、現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを1回目マッチングし、第1のキーワードマッチング結果を得るための第1のマッチングユニットと、
第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するための決定ユニットとを含むことができる。
前記決定ユニットは、具体的には、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられ、又は、前記決定ユニットは、具体的には、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを2回目マッチングし、第2のキーワードマッチング結果を得、第2のキーワードマッチング結果が2回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではなく、第2のキーワードマッチング結果が2回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるために用いられ、又は、前記決定ユニットは、具体的には、前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられる。
前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第1の感情極性分析アルゴリズムを用いて分析して取得されるものである。
前記第3の認識サブモジュール533は、具体的には、前記第1の感情極性分析アルゴリズムと異なる第2の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得て、現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するために用いられる。
図7を参照すると、図7は、本開示に係るデータマイニング装置の第3の実施例の構造模式図であり、図7に示すように、該データマイニング装置は、図6に基づいて、データタイプが決定された各ウェブページ文章をマイニングされたデータとして研究開発ユーザに出力して審査させるための審査モジュール710と、審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力する統計モジュール720とをさらに含む。
本開示の技術的解決手段に係るユーザの個人情報の取得、記憶及び応用などは、いずれも関連法律法規の規定に適合し、かつ公序良俗に違反しない。
本開示の実施例によれば、本開示に、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさら提供する。
図8は、本開示の実施例を実施するための例示的な電子機器800の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図しない。
図8に示すように、電子機器800は、読み取り専用メモリ(ROM)802に記憶されるコンピュータプログラム又は記憶ユニット808からランダムアクセスメモリ(RAM)803にアップロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行できる計算ユニット801を含む。RAM 803には、記憶デバイス800の動作に必要な様々なプログラムおよびデータを記憶することもできる。計算ユニット801、ROM 802及びRAM 803は、バス804を介して互いに接続されている。入出力(I/O)インタフェース805もバス804に接続されている。
電子機器800における複数のコンポーネント(キーボードやマウスなどの入力ユニット806と、種々なディスプレイやスピーカなどの出力ユニット807と、磁気ディスクや光学ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット809とを含む)は、I/Oインタフェース805に接続されている。通信ユニット809は、機器800がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介してその他の機器と情報/データを交換することを許可する。
計算ユニット801は、様々な処理及び計算能力を有する汎用及び/又は特定用途向け処理ユニットであってもよい。計算ユニット801のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の手動知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、前述した各方法及び処理、例えば、上記のいずれかのデータマイニング方法を行う。例えば、いくつかの実施例では、データマイニング方法は、記憶ユニット808のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全ては、ROM 802及び/又は通信ユニット809を介して、機器800にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 803にロードされて計算ユニット801によって実行される場合に、前述したデータマイニング方法の1つの又は複数のステップを実行することができる。追加的に、他の実施例では、計算ユニット801は、他の任意の適当な方式(例えば、ファームウェアを借りる)により上記任データマイニング方法を実行するように構成される。
本明細書の説明されたシステム及び技術の様々な実施の形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実施されることを含み、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈でき、このプログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置から、データおよび命令を受信し、データおよび命令を記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に送信できる。
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせにより作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、又は完全にリモートマシン又はサーバで実行されてもよい。
本開示のコンテキストでは、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機器読み取り可能な信号媒体又は機器読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。
ユーザとのインタラクションを提供するために、情報をユーザに表示するディスプレイデバイス(例えばCRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、及びキーボードとポインティング装置(例えば、マウス又はトラックボール)を有するコンピュータ上で、ここで説明されたシステム及び技術が実現されてもよい。ユーザは、該キーボード及び該ポインティング装置によって入力をコンピュータに提供できる。他の種類の装置は、さらに、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザへ提供されるフィードバックは、任意の適切な形式の感覚フィードバック(例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、任意の形式(音響入力、音声入力又は、触覚入力)で受信されてもよい。
ここで説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)において、または、フロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがここで説明されたシステム及び技術の実施の形態とインタラクションできるグラフィカルユーザインタフェース又はネットワークブラウザを有するユーザコンピュータ)、又は、そのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の適切な組み合わせを含むコンピューティングシステムにおいて実現されてもよい。システムのコンポーネントは、任意の適切な形態または媒体のデジタルデータ通信(例えば通信ネットワーク)により相互接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに遠隔にあり、典型的には通信ネットワークを介してインタラクションする。クライアントおよびサーバの関係は、対応するコンピュータ上で実行され互いにクライアント・サーバ関係を有するコンピュータプログラムにより生じる。
上記の様々な形式のプロセスを使用して、ステップを並べ替えたり、追加したり、削除したりすることができることが理解されたい。例えば、本開示に記載の各ステップは、並列に実行してもよいし、順次に実行してもよいし、異なる順序で実行してもよい。
上記実施の形態は、本開示の保護範囲に対する制限を構成するものではない。設計要件およびその他の要因に応じて、様々な修正、組合せ、サブ組合せ、および代替が可能であることは、当業者には理解されるであろう。本開示の精神および原則の範囲内で行われた修正、同等置換や改善などは、本開示の保護の範囲内に含まれるべきである。

Claims (24)

  1. データマイニング方法であって、
    マイニングすべき現在の文章を取得するステップと、
    予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するステップであって、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである、ステップと、
    前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るステップと、
    前記データタイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するステップとを含む、データマイニング方法。
  2. 前記データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含み、
    予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得する前記ステップは、
    データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するステップと、
    内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するステップと、
    感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するステップとを含む、請求項1に記載の方法。
  3. 前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得る前記ステップは、
    データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得るステップと、
    内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第2の認識結果を得るステップと、
    感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第3の認識結果を得るステップとを含む、請求項2に記載の方法。
  4. 前記データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得るステップは、
    前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップを含む、請求項3に記載の方法。
  5. 前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定する前記ステップは、
    前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたテキスト長さルール又は化けルール及び文章タイトルと文章要約とがマッチングするか否かのルールのうちの1つ又は複数のルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップを含む、請求項4に記載の方法。
  6. 前記文章タイトルと文章要約とがマッチングするか否かのルールは、
    現在の文章が文章タイトルと文章要約のテキストとがマッチングしないこと、及び文章タイトルと文章要約のセマンティクスとがマッチングしないことのうちの少なくとも1つを満たした場合、前記現在の文章がデータ品質の低いタイプのデータであると決定することを含む、請求項5に記載の方法。
  7. 予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得する前記ステップは、前記現在の文章のURL情報を取得するステップをさらに含み、
    データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得る前記ステップは、
    予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のURLにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出するステップと、現在の文章のURLにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するステップとをさらに含む、請求項4に記載の方法。
  8. 内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第2の認識結果を得る前記ステップは、
    現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを1回目マッチングし、第1のキーワードマッチング結果を得るステップと、
    第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するステップとを含む、請求項3に記載の方法。
  9. 第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するステップを含み、又は、
    第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを2回目マッチングし、第2のキーワードマッチング結果を得るステップと、
    第2のキーワードマッチング結果が2回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではないステップと、第2のキーワードマッチング結果が2回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるステップとを含み、又は、
    第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定する前記ステップは、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定するステップと、
    前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断するステップと、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するステップとを含む、請求項8に記載の方法。
  10. 前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第1の感情極性分析アルゴリズムを用いて分析して取得されるものであり、
    感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第3の認識結果を得る前記ステップは、
    前記第1の感情極性分析アルゴリズムと異なる第2の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得るステップと、
    現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するステップとを含む、請求項3に記載の方法。
  11. 現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定する前記ステップは、
    前記現在の感情極性と前記感情極性ラベルの極性とが逆である否か、かつ前記第2の感情極性分析アルゴリズムによって出力された現在の感情極性の信頼度が予め設定された閾値以上であるか否かを判断し、そうである場合、前記現在の文章が感情的分析が正確でないタイプのデータであると決定するステップを含む、請求項10に記載の方法。
  12. データタイプが決定された各文章をマイニングされたデータとして研究開発ユーザに出力して審査させるステップと、
    審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力するステップとをさらに含む、請求項1~11いずれかに記載の方法。
  13. データマイニング装置であって、
    マイニングすべき現在の文章を取得するための現在の文章取得モジュールと、
    予め設定された多種のデータ認識ポリシーに基づいて、現在の文章から各種のデータ認識ポリシーに必要な情報値を取得するための情報値取得モジュールであって、各種のデータ認識ポリシーは、1種の予め設定されたタイプのデータを認識するためのものである、情報値取得モジュールと、
    前記各種のデータ認識ポリシーの各々を利用し、該認識ポリシーに必要な情報値に基づいて、現在の文章に対してデータタイプ認識を行い、データタイプ認識結果を得るためのデータタイプ認識モジュールと、
    前記タイプ認識結果に応じて、現在の文章がいずれかの予め設定されたタイプのデータに属するか否かを決定するためのデータタイプ決定モジュールとを含む、データマイニング装置。
  14. 前記データの予め設定されたタイプは、データ品質の低いタイプ、内容品質の低いタイプ及び感情的分析が正確でないタイプを含み、
    前記情報値取得モジュールは、
    データ品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章から文章タイトル、文章要約及び文章内容を取得するための第1の情報値取得サブモジュールと、
    内容品質の低いタイプのデータ認識ポリシーに基づいて、現在の文章からキーワードを抽出するための第2の情報値取得サブモジュールと、
    感情的分析が正確でないタイプのデータ認識ポリシーに基づいて、現在の文章から、発表された感情極性ラベルを取得するための第3の情報値取得サブモジュールとを含む、請求項13に記載の装置。
  15. 前記データタイプ認識モジュールは、
    データ品質の低いタイプのデータ認識ポリシー、前記文章タイトル、文章要約及び文章内容を利用して、現在の文章を認識し、現在の文章がデータ品質の低いタイプのデータであるか否かの第1の認識結果を得るための第1の認識サブモジュールと、
    内容品質の低いタイプのデータ認識ポリシー及び現在の文章から抽出されたキーワードを利用して、現在の文章を認識し、現在の文章が内容品質の低いタイプのデータであるか否かの第2の認識結果を得るための第2の認識サブモジュールと、
    感情的分析が正確でないタイプのデータ認識ポリシー及び前記現在の文章の感情極性ラベルを利用して、現在の文章を認識し、現在の文章が感情的分析が正確でないタイプのデータであるか否かの第3の認識結果を得るための第3の認識サブモジュールとを含む、請求項14に記載の装置。
  16. 前記第1の認識サブモジュールは、具体的には、
    前記現在の文章の文章タイトル、文章要約及び文章内容が予め設定されたデータ品質の低いタイプのデータルールを満たすか否かを判断し、そうである場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる、請求項15に記載の装置。
  17. 前記第1の情報値取得サブモジュールは、さらに、前記現在の文章のURL情報を取得するために用いられ、
    前記第1の認識サブモジュールは、さらに、具体的には、
    予め設定されたデッドリンク定期的検出ルールに従って、現在の文章のURLにはアクセスできないデッドリンク現象が生じたか否かを定期的に検出し、現在の文章のURLにはアクセスできないデッドリンク現象が生じた場合、前記現在の文章がデータ品質の低いタイプのデータであると決定するために用いられる、請求項15に記載の装置。
  18. 前記第2の認識サブモジュールは、
    現在の文章から抽出されたキーワードと、予め設定された内容品質の低いタイプのデータに対応するキーワードとを1回目マッチングし、第1のキーワードマッチング結果を得るための第1のマッチングユニットと、
    第1のキーワードマッチング結果に応じて、前記現在の文章が内容品質の低いタイプのデータであるか否かを決定するための決定ユニットとを含む、請求項15に記載の装置。
  19. 前記決定ユニットは、具体的には、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられ、又は、
    前記決定ユニットは、具体的には、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、現在の文章から抽出されたキーワードと、予め設定された信頼できるキーワードとを2回目マッチングし、第2のキーワードマッチング結果を得て、
    第2のキーワードマッチング結果が2回目のマッチングに成功したことを表す場合、前記現在の文章が内容品質の低いタイプのデータではなく、第2のキーワードマッチング結果が2回目のマッチングに成功しなかったことを表す場合、前記現在の文章が内容品質の低いタイプのデータであるために用いられ、又は、
    前記決定ユニットは、具体的には、
    前記第1のマッチング結果が1回目のマッチングに成功したことを表す場合、前記現在の文章の属する現在のウエブサイトを決定し、
    前記現在のウエブサイトが予め設定された内容品質の低いタイプのデータの属するウエブサイトであるか否かを判断し、そうである場合、前記現在の文章が内容品質の低いタイプのデータであると決定するために用いられる、請求項18に記載の装置。
  20. 前記現在の文章の感情極性ラベルは、前記現在の文章の発表中において第1の感情極性分析アルゴリズムを用いて分析して取得されるものであり、
    前記第3の認識サブモジュールは、具体的には、
    前記第1の感情極性分析アルゴリズムと異なる第2の感情極性分析アルゴリズムを用いて、分析すべき文章に対して感情的分析を行い、分析すべき文章の現在の感情極性を得て、
    現在の感情極性と前記発表された感情極性ラベルとが一致するか否かに応じて、前記現在の文章が感情的分析が正確でないタイプのデータであるか否かを決定するために用いられる、請求項15に記載の装置。
  21. データタイプが決定された各ウェブページ文章をマイニングされたデータとして研究開発ユーザに出力して審査させるための審査モジュールと、
    審査に合格した各タイプのデータを統計し、統計情報を取得して研究開発ユーザに出力するための統計モジュールとをさらに含む、請求項13~20いずれかに記載の装置。
  22. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリとを含み、
    前記メモリには前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~11のいずれかに記載の方法を実行できる、電子機器。
  23. コンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~11のいずれかに記載の方法を実行させるために用いられる、記憶媒体。
  24. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~11のいずれかに記載の方法を実現する、コンピュータプログラム製品。

JP2022105372A 2021-06-30 2022-06-30 データマイニング方法、装置、電子機器及び記憶媒体 Pending JP2023008943A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110742126.6A CN113535813B (zh) 2021-06-30 2021-06-30 一种数据挖掘方法、装置、电子设备以及存储介质
CN202110742126.6 2021-06-30

Publications (1)

Publication Number Publication Date
JP2023008943A true JP2023008943A (ja) 2023-01-19

Family

ID=78097482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022105372A Pending JP2023008943A (ja) 2021-06-30 2022-06-30 データマイニング方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11755677B2 (ja)
EP (1) EP4113321A1 (ja)
JP (1) JP2023008943A (ja)
KR (1) KR20230004333A (ja)
CN (1) CN113535813B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN117056150B (zh) * 2023-10-10 2024-01-26 宁波银行股份有限公司 一种网络附属存储检测方法、装置、设备及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065240A1 (en) * 2002-02-01 2003-08-07 John Fairweather System and method for managing collections of data on a network
US7219099B2 (en) * 2002-05-10 2007-05-15 Oracle International Corporation Data mining model building using attribute importance
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
US8862497B2 (en) * 2007-01-02 2014-10-14 Washington State University Research Foundation Method and system of determining and issuing user incentives on a web server via assessment of user-generated content relevance and value
US9183203B1 (en) * 2009-07-01 2015-11-10 Quantifind, Inc. Generalized data mining and analytics apparatuses, methods and systems
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103544242B (zh) * 2013-09-29 2017-02-15 广东工业大学 面向微博的情感实体搜索系统
US10902468B2 (en) * 2014-06-23 2021-01-26 Board Of Regents, The University Of Texas System Real-time, stream data information integration and analytics system
CN104077377B (zh) * 2014-06-25 2018-02-23 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
US10896461B2 (en) * 2014-06-25 2021-01-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for data mining based on users' search behavior
US9876699B2 (en) * 2015-10-21 2018-01-23 Wipro Limited System and method for generating a report in real-time from a resource management system
US10757061B1 (en) * 2016-08-18 2020-08-25 Hrl Laboratories, Llc Cross-modal event summarization system based on network of networks representations
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN107491432B (zh) * 2017-06-20 2022-01-28 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN108717406B (zh) * 2018-05-10 2021-08-24 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108984675B (zh) * 2018-07-02 2019-08-13 北京百度网讯科技有限公司 基于评价的数据查询方法和装置
US11727800B2 (en) * 2018-12-04 2023-08-15 Mark43, Inc. System and method for law enforcement incident reporting
KR102228585B1 (ko) * 2019-05-03 2021-03-16 주식회사 자이냅스 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법
KR102371505B1 (ko) * 2019-05-03 2022-03-08 주식회사 자이냅스 빅데이터를 활용하여 뉴스를 레이블링하는 프로그램
KR102361596B1 (ko) * 2019-05-03 2022-02-11 주식회사 자이냅스 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 방법
CN110427549A (zh) * 2019-06-20 2019-11-08 北京清博大数据科技有限公司 一种网络舆论溯源分析方法、装置、终端及存储介质
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
US11574150B1 (en) * 2019-11-18 2023-02-07 Wells Fargo Bank, N.A. Data interpretation analysis
US11783205B2 (en) * 2019-12-17 2023-10-10 Sap Se Machine learning-based rule mining algorithm
CN111538828B (zh) * 2020-04-21 2023-04-25 招商局金融科技有限公司 文本情感分析方法、装置、计算机装置及可读存储介质
CN111522888B (zh) * 2020-04-22 2023-06-20 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
CN111708858B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 一种地图数据处理方法、装置、设备以及存储介质
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
US11755677B2 (en) 2023-09-12
CN113535813B (zh) 2023-07-28
US20230004613A1 (en) 2023-01-05
CN113535813A (zh) 2021-10-22
EP4113321A1 (en) 2023-01-04
KR20230004333A (ko) 2023-01-06

Similar Documents

Publication Publication Date Title
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
Mandal et al. Unsupervised approaches for measuring textual similarity between legal court case reports
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
JP2023008943A (ja) データマイニング方法、装置、電子機器及び記憶媒体
US20160171369A1 (en) Technical and semantic signal processing in large, unstructured data fields
US20190155918A1 (en) Real-time classification of evolving dictionaries
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US9632998B2 (en) Claim polarity identification
WO2019241360A1 (en) Method and system for generating contradiction scores using associative topic sentiment analysis
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
US11989677B2 (en) Framework for early warning of domain-specific events
CN114896387A (zh) 军事情报分析可视化方法、装置以及计算机可读存储介质
US20140272842A1 (en) Assessing cognitive ability
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN113792230B (zh) 服务链接方法、装置、电子设备和存储介质
CN114491076A (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN112528644A (zh) 实体挂载的方法、装置、设备以及存储介质
Mamatha et al. Supervised aspect category detection of co-occurrence data using conditional random fields
Zhang et al. A semantic search framework for similar audit issue recommendation in financial industry
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240301