JP2022122231A - トレジャーキーワードの判断及び再分類方法並びにシステム - Google Patents

トレジャーキーワードの判断及び再分類方法並びにシステム Download PDF

Info

Publication number
JP2022122231A
JP2022122231A JP2021077473A JP2021077473A JP2022122231A JP 2022122231 A JP2022122231 A JP 2022122231A JP 2021077473 A JP2021077473 A JP 2021077473A JP 2021077473 A JP2021077473 A JP 2021077473A JP 2022122231 A JP2022122231 A JP 2022122231A
Authority
JP
Japan
Prior art keywords
treasure
information
word
keyword
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021077473A
Other languages
English (en)
Other versions
JP7213568B2 (ja
Inventor
ミン リン クオ
Kuo-Ming Lin
ウェイ リー チェン
Chen Wei Lee
ウ リン シュ
Szu-Wu Lin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Awoo Intelligence Inc
Original Assignee
Awoo Intelligence Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Awoo Intelligence Inc filed Critical Awoo Intelligence Inc
Publication of JP2022122231A publication Critical patent/JP2022122231A/ja
Application granted granted Critical
Publication of JP7213568B2 publication Critical patent/JP7213568B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】トレジャーキーワードの判断及び再分類方法並びにシステムを提供する。【解決手段】主にまずワードプロセッシングサーバーに大量のテキスト及びトレジャーキーワードを入力して機械学習を行い、トレジャーキーワード及びトレジャーキーワードと関連する多くのラベルのラーニングを行い、価値の定義に適合するテキスト内のトレジャーキーワードを学習及び判断する。さらにテキスト中から抜粋した後に再分類を行い、各トレジャーキーワードに各種関連性ラベルを貼り、後続のトレジャーキーワードの応用を便利にする。【選択図】図3

Description

本発明は、機械学習を利用したシステムに関し、より詳しくは、テキストからトレジャーキーワードを抜粋し、トレジャーキーワードを分類するシステム及び方法に関する。
現在ネットの世界には大量の情報テキスト、文章、短文等が溢れている。このような大量の情報コンテンツは、ネットワークのユーザー側、ネットワークデータ処理側、ネットワーク広告提供側等にとって大量の情報の中から有用な情報を精確に取得する或いはその有用な情報を応用することが難しかった。よって、ネットワークの情報の中から有用な情報を高速且つ精確に取得することは、ネットワークの発展にとって非常に重要であった。また、人力の代わりに機械を使用してテキスト情報を能動的に収集し、機械学習により有用な情報を判断すると共に取り出すことが、現在各業界が注力している目標であった。従来の特許文献では、例えば、下記特許文献1の「マーケティングターゲットの人気予測方法及び非一時的なコンピュータ可読媒体」という記載があり、前記技術では、まずソーシャルメディアからマーケティングカテゴリに対応する文章をダウンロードし、単語に分割することによって複数のキーワードを取得し、時系列方式でキーワードの関連性を決定すると共にニューラルネットワークモデルを構築する。最後に適用する者がキーワードを使用した際に、関連度に基づいてユーザーにその他のキーワードを提供する。
台湾特許第660317号明細書
しかしながら、前述の台湾特許出願は、キーワードを分析する際に露出量のみを考慮しており、クリック頻度、ワード出現頻度、ワード使用頻度等の他のデータは考慮していない。また、前記出願は複数のキーワードを取得する際に、ワード分割技術を採用している。ワード分割技術は現在テキストからキーワードを抜粋する技術で一定のシェアを得ているが、例えば、流行語、中英混成語、ネットスラング等はキーワードではないが、データ分析においては有意義(または有価値)なワードである。最後に、前記台湾特許出願はユーザーがキーワードを使用すると、関連するまたは相似するキーワードのみを提供し、その他の分類、カテゴリ、分野等のその他のデータを提供することに関しては言及していない。
そこで、本発明者は従来のトレジャーキーワードの抜粋及び使用技術には前述の欠点が確かに存在するため、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
本発明はこうした状況に鑑みてなされたものであり、その目的は、テキストからトレジャーキーワードを識別し、且つトレジャーキーワードの再分類を行うシステム及び方法を提供することにある。
上記課題を解決するために、本発明は主にワードプロセッシングサーバーを備え、データプロバイダーがまずネット記事、電子メール広告テキスト、商品説明文等のテキストデータを入力し、テキスト情報が対応するトレジャーキーワードの基礎とし、且つ第一回機械学習を行い、システムにテキスト内のトレジャーキーワードを学習及び判断させる。また、システムはまず入力されたトレジャーキーワード及びトレジャーキーワードと関連する分類ラベルの第二回機械学習を行い、システムがテキストからトレジャーキーワードを抜粋するのみならず、抜粋完了後に抜粋したトレジャーキーワードの分類を行う。最後にトレジャーキーワードに関連する各種ラベルを付与し、後続のトレジャーキーワードの使用時に、テキストから分離して判断するのみならず、ラベル分類に基づいた異なる応用を可能とする。
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図(1)である。 本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図(2)である。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示すフローチャートである。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(1)である。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(2)である。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(3)である。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(4)である。 本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(5)である。 本発明の他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。 本発明のさらなる他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。
以下、本開示の実施形態について図面を用いて説明する。なお、本開示は、下記の実施形態に何ら限定されることはなく、本開示の技術的範囲に属する限り種々の形態を採りうる。
本発明のトレジャーキーワードの判断及び再分類システム1は、ワードプロセッシングサーバー11を備え、ワードプロセッシングサーバー11と情報接続している第三者検索システム12及びデータプロバイダーデバイス13を少なくとも有している(図1参照)。以下、各構成部材の機能を例示する。
<ワードプロセッシングサーバー11>
ワードプロセッシングサーバー11はデータプロバイダーデバイス13が送信したデータを受信した後に機械学習を行い、学習したデータに基づいて複数のモデルを構築する。ワードプロセッシングサーバー11が第三者検索システム12により収集したテストするデータ中からトレジャーキーワードを判断して抜粋し、トレジャーキーワードの分類を行う。最後に、分類したカテゴリに基づいて各トレジャーキーワードに分類ラベル情報を付与する。
<第三者検索システム12>
第三者検索システム12は検索エンジンデータベース、広告データベース、テキストデータベースのうちの何れか1種類またはそれらの組み合わせであり、但し、ワードプロセッシングサーバー11は必要なテストする入力サンプルを獲得可能なシステムであれば全て実施可能である。
<データプロバイダーデバイス13>
データプロバイダーデバイス13は携帯電話、タブレット端末、パソコン等の設備のうちの何れか1種類であり、但し、ワードプロセッシングサーバー11が機械学習を行うために必要なデータを提供できるものであれば全て実施可能である。データプロバイダーデバイス13は主にワードプロセッシングサーバー11が機械学習を行ってモデルを構築する際に必要なテキスト情報、トレジャーキーワード情報、及び分類カテゴリ情報を提供する。前述の情報については後述する。
また、ワードプロセッシングサーバー11は主に、データストレージモジュール112、データ収集モジュール113、ワード判断モジュール114、及びワード再分類モジュール115にそれぞれ情報接続しているデータ処理モジュール111を備えている。データ処理モジュール111はワードプロセッシングサーバー11を作動させ、上述の各モジュールが作動するように駆動させる。データ処理モジュール111は論理演算を行い、演算結果を一時保存し、命令実行位置を保存する等の機能を備え、例えば、中央処理装置(Central Processing Unit、CPU)であるが、これに限られない。
データストレージモジュール112は電子データを保存するためのSSD(Solid State Disk or Solid State Drive)、HDD(Hard Disk Drive)、或いはメモリのうちの何れか1種類である。データストレージモジュール112はワード判断データベース1121、ワード再分類データベース1122、及び分類完全データベース1123を保存している。ワード判断データベース1121はテキスト情報T1及び第一トレジャーキーワード情報L1を保存及び記録し、テキスト情報T1及び第一トレジャーキーワード情報L1はデータプロバイダーデバイス13から提供される。テキスト情報T1は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報L1は主にテキスト情報T1内の文中にあるトレジャーキーワードに対応し、さらにトレジャーキーワードはキーワードのみならず流行語、中英混成語、ネットスラング等の有意義な時代を表すワードを含み、これらは全てトレジャーキーワードの定義に適合する。また、トレジャーキーワードはデータプロバイダーデバイス13により標記し、この標記はトレジャーキーワードがテキストに出現する出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度等の関連データを基礎として行う。ワード再分類データベース1122は第二トレジャーキーワード情報T2及び分類カテゴリ情報L2を保存し、第二トレジャーキーワード情報T2は前述の第一トレジャーキーワード情報T1と同じであるが、ここでは、第二トレジャーキーワード情報T2は後述する第二機械学習に基づいて入力するデータであり、よって対応していないテキスト情報である。ここでは、分類カテゴリ情報L2は第二トレジャーキーワード情報T2に対応する情報であり、分類カテゴリ情報L2はデータプロバイダーデバイス13により標記し、トレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等に対応し、分類ラベルの属性、機能、効果、特徴、ブランド等でもよい。分類完全データベース1123は主にテストするトレジャーキーワード情報及び分類ラベル情報を保存する。上述の情報については詳しく後述する。
データ収集モジュール113は主に第三者検索システム12によりテストするテキスト情報を収集し、且つテストするテキスト情報を後続のワード判断モジュール114に伝送する。データ収集モジュール113は主にブラウザ検索、データキャプチャ、Webクローラー(Web Crawler)等の方式またはそれらの組み合わせを使用してテストするテキストデータを収集する。また、テストするテキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これらに限られない。なお、テストするテキスト情報は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。
ワード判断モジュール114は主にデータ収集モジュール113が送信したテストするテキスト情報内にあるトレジャーキーワードを判断し、テストするトレジャーキーワード情報として抜粋し、後続のワード再分類モジュール115に伝送する。ワード判断モジュール114は主に教師あり学習(Supervised Learning)、半教師あり学習(Semi-Supervised Learning)、或いは強化学習(Reinforcement Learning)等の強化学習(Machine Learning)を使用してモデルを構築するが、これに限られない。ワード判断モジュール114は主にテキスト情報T1をモデルのラーニング時の入力データとし、第一トレジャーキーワード情報L1をモデルのラーニング時のラベルデータとして第一機械学習を行うと共にモデルを構築する。
ワード再分類モジュール115は主にワード判断モジュール114が送信したテストするトレジャーキーワード情報を分類すると共に分類結果に基づいてトレジャーキーワード情報を分類ラベル情報に付与する。最後に、テストするトレジャーキーワード情報及び分類ラベル情報を分類完全データベース1123に保存する。ワード再分類モジュール115は主に教師あり学習(Supervised Learning)、半教師あり学習(Semi-Supervised Learning)、或いは強化学習(Reinforcement Learning)等の強化学習(Machine Learning)を使用してモデルを構築する。ワード再分類モジュール115は主に第二トレジャーキーワード情報T2をモデルのラーニング時の入力データとし、分類カテゴリ情報L2をモデルのラーニング時のラベルデータとして第二機械学習を行うと共にモデルを構築する。
次に、図1~3を参照しながら、本発明の実施形態を詳しく説明する。
<テストする情報の入力ステップS1>
図4に示すように、ワードプロセッシングサーバー11のデータ収集モジュール113は第三者検索システム12によりテストするテキスト情報D1を収集すると共にワードプロセッシングサーバー11に伝送した後、テストするテキスト情報D1をワード判断モジュール114に伝送する。テストするテキスト情報D1はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これに限られない。また、テストするテキスト情報D1は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。
<第一モデル比較ステップS2>
前項のステップを受けて、図5と図6を併せて参照し、ワード判断モジュール114はデータ収集モジュール113が送信したテストするテキスト情報D1を受信した後、テストするテキスト情報D1及び第一機械学習の比較及び分析を行う。第一機械学習モデルを構築する場合、ワード判断データベース1121中のテキスト情報T1を第一ラーニング入力情報とし、第一トレジャーキーワード情報L1を第一ラベル情報としてモデルを構築し、最後にテストするテキスト情報D1の分析、比較、及び判断を行う。テキスト情報T1は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報L1は主にテキスト情報T1内の文中にあるトレジャーキーワードに対応し、さらに、トレジャーキーワードはキーワードのみならず、流行語、中英混成語、ネットスラング等の有意義なワードを全てトレジャーキーワードとして含んでいる。例えば、第一機械学習により、ワード判断モジュール114がテキスト情報T1から「防疫」、「マスク」、「肺炎」、「COVID-19」等の単語をトレジャーキーワードとして学習し、且つ防疫公報等のネット記事やネットエッセイ中に「防疫」、「マスク」、「肺炎」、「COVID-19」等の関連するトレジャーキーワードがあるか否か判断する。以上は例示にすぎず、これに限定するわけではない。
<トレジャーキーワードの判断ステップS3>
前項のステップを受けて、図7を併せて参照し、ワード判断モジュール114はテストするテキスト情報D1を判断し、第一機械学習の結果に基づいてテストするテキスト情報D1内のテキストからテストするトレジャーキーワード情報D2を抜粋し、且つテストするトレジャーキーワード情報D2をワード再分類モジュール115に伝送する。例えば、ワード判断モジュール114が防疫公報中から「防疫」、「マスク」、「肺炎」、及び関連するトレジャーキーワードとして「ワクチン」、「隔離」等のワードを抜粋し、抜粋したトレジャーキーワードを後続のモジュールに伝送して分類する。以上は例示にすぎず、これに限定するわけではない。
<第二モデル比較ステップS4>
図7に示すように、ワード再分類モジュール115はワード判断モジュール114が抜粋したテストするトレジャーキーワード情報D2を受信し、且つテストするトレジャーキーワード情報D2及び第二機械学習の分析及び比較を行う。第二機械学習モデルを構築する場合、ワード再分類データベース1122中の第二トレジャーキーワード情報T2を第二ラーニング入力情報とし、分類カテゴリ情報L2を第二ラベル情報としてモデルを構築し、最後にテストするトレジャーキーワード情報D2の分析及び比較を行う。第二トレジャーキーワード情報T2はキーワード、流行語、同義語、表音文字等でもよく、但しこれらに限られない。また、分類カテゴリ情報L2は主に第二トレジャーキーワード情報T2に対応する分類カテゴリであり、さらに、分類カテゴリ情報L2は第二トレジャーキーワード情報T2中のトレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等を含むが、これに限られない。例えば、第二機械学習により、ワード再分類モジュール115が第二トレジャーキーワード情報T2から「マスク」が属する分類が医療、疾病、食品、健康、旅行等であることを学習する。特に、前述の属する分類は分類されるラベル属性を含み、ラベル属性としては「マスク」のブランド、商品の特徴、機能、効果、効用等がある。また、肺炎が属する分類としては医療、疾病、感染、インフルエンザがあり、「COVID-19」が属する分類としては医療、ウィルス、コロナウィルス、世界的、変異種等の分類カテゴリがある。以上は例示にすぎず、これに限定するわけではない。
<トレジャーキーワードの再分類ステップS5>
前項のステップを受けて、図8を併せて参照し、ワード再分類モジュール115はテストするトレジャーキーワード情報D2を判断し、第二機械学習の結果に基づいてテストするトレジャーキーワード情報D2に分類ラベル情報D3を付与する。最後に、ワード再分類モジュール115はテストするトレジャーキーワード情報D2及び分類ラベル情報D3を分類完全データベース1123に保存する。分類ラベル情報D3は分類カテゴリ情報L2と同じであるが、ここではテストするトレジャーキーワード情報D2に対応する、属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等についてのみであり、これらに限られない。例えば、トレジャーキーワードの判断ステップS3の例としては、トレジャーキーワードである「防疫」、「マスク」、「肺炎」、「ワクチン」、及び「隔離」は全て医療に分類され、「マスク」はさらに疾病、食品、健康にも分類され、「肺炎」はさらに医療、疾病、感染、インフルエンザ等にも分類される。以上は例示にすぎず、これに限定するわけではない。
また、図9に示すように、トレジャーキーワードの再分類ステップS5の後にさらに続けて抜粋使用ステップS6を実行し、ユーザーがユーザー側装置を使用してワードプロセッシングサーバー11によりトレジャーキーワードを検索、抜粋、または使用する場合、トレジャーキーワードに対応する分類カテゴリラベルも一緒にワードプロセッシングサーバー11により抜粋され、ユーザー側装置により使用される。例えば、ユーザーAが携帯電話を使用し、ワードプロセッシングサーバー11により「マスク」を検索すると、「マスク」に属する分類ラベルの医療、疾病、食品、健康、交通も一緒に抜粋し、ユーザーAに提供する。以上は例示にすぎず、これに限定するわけではない。
また、図10に示すように、ワードプロセッシングサーバー11は、データプロバイダーデバイス13が提供する補正情報を受信し、受信した補正情報に基づいて前記ワード判断モジュール114の第一機械学習及びワード再分類モジュール115の第二機械学習の結果を調整するための補正モジュール116をさらに備えている。例えば、データプロバイダーデバイス13が補正情報を送信し、「マスク」の分類ラベルの食品を削除すると、補正モジュール116がこの補正情報を受信した後にワード再分類モジュール115を調整する。以上は例示にすぎず、これに限定するわけではない。
以上を総合すると、本発明に係るトレジャーキーワードの判断及び再分類方法並びにシステムは、2回の機械学習方式により、システムがトレジャーキーワードを文中から判断して抜粋し、トレジャーキーワードの分類を行い、分類カテゴリに基づいてトレジャーキーワードに各種ラベルを付与する。これにより、本発明を実施することで、テキストからトレジャーキーワードを確実に識別し、トレジャーキーワードを再分類する目的を達成している。
上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは言うまでもない。
1 トレジャーキーワードの判断及び再分類システム
11 ワードプロセッシングサーバー
111 データ処理モジュール
112 データストレージモジュール
1121 ワード判断データベース
1122 ワード再分類データベース
1123 分類完全データベース
113 データ収集モジュール
114 ワード判断モジュール
115 ワード再分類モジュール
116 補正モジュール
12 第三者検索システム
13 データプロバイダーデバイス
T1 テキスト情報
L1 第一トレジャーキーワード情報
T2 第二トレジャーキーワード情報
L2 分類カテゴリ情報
D1 テストするテキスト情報
D2 テストするトレジャーキーワード情報
D3 分類ラベル情報
S1 テストする情報の入力ステップ
S2 第一モデル比較ステップ
S3 トレジャーキーワードの判断ステップ
S4 第二モデル比較ステップ
S5 トレジャーキーワードの再分類ステップ
S6 抜粋使用ステップ

Claims (9)

  1. ワードプロセッシングサーバーのデータ収集モジュールが第三者検索システムによりテストするテキスト情報を収集し、前記テストする前記テキスト情報を前記ワードプロセッシングサーバーのワード判断モジュールに伝送する、テストする情報の入力ステップと、
    前記ワード判断モジュールは、前記テストする前記テキスト情報を分析及び比較して前記トレジャーキーワードを判断し、前記ワード判断モジュールは前記ワードプロセッシングサーバーのワード判断データベース中のテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行うと共に学習を完了するモジュールである第一モデル比較ステップと、
    前記第一モデル比較ステップを受けて、前記ワード判断モジュールが前記テストする前記テキスト情報から、前記第一機械学習の結果に基づいてテストするトレジャーキーワード情報を抜粋し、前記テストする前記トレジャーキーワード情報を前記ワードプロセッシングサーバーのワード再分類モジュールに伝送するトレジャーキーワードの判断ステップと、
    前記ワード再分類モジュールは前記テストする前記トレジャーキーワード情報を分析及び比較し、前記テストする前記トレジャーキーワード情報を分類し、前記ワード再分類モジュールは、前記ワードプロセッシングサーバーのワード再分類データベース中の第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行うと共に学習を完了するモジュールである第二モデル比較ステップと、
    前記第二モデル比較ステップを受けて、前記ワード再分類モジュールは前記第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、且つ前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記ワードプロセッシングサーバーの分類完全データベースに保存するトレジャーキーワードの再分類ステップと、を含むことを特徴とするトレジャーキーワードの判断及び再分類方法。
  2. 前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせ情報であることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
  3. 前記テキスト情報、前記第一トレジャーキーワード情報、前記第二トレジャーキーワード情報、及び前記分類カテゴリ情報はデータプロバイダーデバイスから提供されていることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
  4. 前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか1種類を主に使用していることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
  5. 前記トレジャーキーワードの再分類ステップ後にさらに続けて抜粋使用ステップを実行し、使用者側が使用者側装置により前記ワードプロセッシングサーバーから前記トレジャーキーワードを抜粋すると、前記分類ラベル情報も前記ワードプロセッシングサーバーから一緒に抜粋されることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
  6. 主にデータストレージモジュール、データ収集モジュール、ワード判断モジュール、及びワード再分類モジュールと情報接続しているデータ処理モジュールを含み、前記データ処理モジュールが作動させるワードプロセッシングサーバーと、
    テストするテキスト情報を前記ワードプロセッシングサーバーに提供する第三者検索システムと、
    前記テキスト情報、第一トレジャーキーワード情報、第二トレジャーキーワード情報、及び分類カテゴリ情報を前記ワードプロセッシングサーバーに提供するデータプロバイダーデバイスと、を備え、
    前記データストレージモジュールは主にワード判断データベースと、ワード再分類データベースと、分類完全データベースとを含み、
    前記データ収集モジュールは主に前記テストする前記テキスト情報を収集すると共に前記ワード判断モジュールに伝送し、
    前記ワード判断モジュールは前記ワード判断データベースに保存しているテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行い、前記ワード判断モジュールは前記第一機械学習の結果に基づいて前記テストする前記テキスト情報中からテストするトレジャーキーワード情報を判断し、前記テストする前記トレジャーキーワード情報を抜粋すると共に前記ワード再分類モジュールに伝送し、
    前記ワード再分類モジュールは前記ワード再分類データベースに保存している第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行い、前記ワード再分類モジュールは第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報を分類し、且つ分類の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記分類完全データベースに保存することを特徴とするトレジャーキーワードの判断及び再分類システム。
  7. 前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせ情報であることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
  8. 前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか1種類を主に使用していることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
  9. 前記ワードプロセッシングサーバーは、前記データプロバイダーデバイスから提供される補正情報に基づいて前記第一機械学習及び前記第二機械学習の結果を調整するための補正モジュールをさらに備えていることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
JP2021077473A 2021-02-09 2021-04-30 トレジャーキーワードの判断及び再分類方法並びにシステム Active JP7213568B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW110105019 2021-02-09
TW110105019A TWI751022B (zh) 2021-02-09 2021-02-09 有價字詞判斷及再分類之方法及其系統

Publications (2)

Publication Number Publication Date
JP2022122231A true JP2022122231A (ja) 2022-08-22
JP7213568B2 JP7213568B2 (ja) 2023-01-27

Family

ID=80681416

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021077473A Active JP7213568B2 (ja) 2021-02-09 2021-04-30 トレジャーキーワードの判断及び再分類方法並びにシステム

Country Status (3)

Country Link
US (1) US20220253728A1 (ja)
JP (1) JP7213568B2 (ja)
TW (1) TWI751022B (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039600A (ja) * 2008-08-01 2010-02-18 Yahoo Japan Corp 広告配信装置、広告配信方法、及び広告配信制御プログラム
JP2020181463A (ja) * 2019-04-26 2020-11-05 有限会社アライブ トレジャーキーワード探索システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
TWM546531U (zh) * 2017-05-10 2017-08-01 曹修源 文字探勘衡量系統
TWI723868B (zh) * 2019-06-26 2021-04-01 義守大學 一種抽樣後標記應用在類神經網絡訓練模型之方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039600A (ja) * 2008-08-01 2010-02-18 Yahoo Japan Corp 広告配信装置、広告配信方法、及び広告配信制御プログラム
JP2020181463A (ja) * 2019-04-26 2020-11-05 有限会社アライブ トレジャーキーワード探索システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山崎智弘: ""強連結成分分解を利用した電子番組表からの話題抽出"", JOURNAL OF THE DBSJ, vol. 7, no. 1, JPN6022029330, June 2008 (2008-06-01), pages 1 - 6, ISSN: 0004828118 *

Also Published As

Publication number Publication date
US20220253728A1 (en) 2022-08-11
TWI751022B (zh) 2021-12-21
TW202232343A (zh) 2022-08-16
JP7213568B2 (ja) 2023-01-27

Similar Documents

Publication Publication Date Title
US10169706B2 (en) Corpus quality analysis
US11132370B2 (en) Generating answer variants based on tables of a corpus
US8676730B2 (en) Sentiment classifiers based on feature extraction
Amancio Comparing the topological properties of real and artificially generated scientific manuscripts
Bravo-Marquez et al. Building a Twitter opinion lexicon from automatically-annotated tweets
Mitra et al. Helpfulness of online consumer reviews: A multi-perspective approach
Diamantini et al. A negation handling technique for sentiment analysis
CN103853824A (zh) 一种基于深度语义挖掘的内文广告发布方法与系统
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Panchenko et al. Detection of child sexual abuse media on p2p networks: Normalization and classification of associated filenames
Shahade et al. Multi-lingual opinion mining for social media discourses: an approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
Subramanian et al. Development of multi-lingual models for detecting hope speech texts from social media comments
CN106951917A (zh) 一种淋巴瘤病理类型的智能分类系统和方法
US11599580B2 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
CN112052424A (zh) 一种内容审核方法及装置
Suprayogi et al. Information extraction for mobile application user review
JP7213568B2 (ja) トレジャーキーワードの判断及び再分類方法並びにシステム
Zhang et al. Research on keyword extraction and sentiment orientation analysis of educational texts
Chao et al. A joint framework for identifying the type and arguments of scientific contribution
Chen et al. An opinion mining framework for Cantonese reviews
Mai et al. Scalable disambiguation system capturing individualities of mentions
Velammal Development of knowledge based sentiment analysis system using lexicon approach on twitter data
Verma et al. PREDICTING SENTIMENT FROM MOVIE REVIEWS USINGLEXICONBASED MODEL
KR20180059147A (ko) 소셜 데이터 분류 시스템 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230110

R150 Certificate of patent or registration of utility model

Ref document number: 7213568

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150