JP2022122231A

JP2022122231A - トレジャーキーワードの判断及び再分類方法並びにシステム

Info

Publication number: JP2022122231A
Application number: JP2021077473A
Authority: JP
Inventors: ミンリンクオ; Kuo-Ming Lin; ウェイリーチェン; Chen Wei Lee; ウリンシュ; Szu-Wu Lin
Original assignee: Awoo Intelligence Inc
Current assignee: Awoo Intelligence Inc
Priority date: 2021-02-09
Filing date: 2021-04-30
Publication date: 2022-08-22
Anticipated expiration: 2041-04-30
Also published as: US20220253728A1; JP7213568B2; TW202232343A; TWI751022B

Abstract

【課題】トレジャーキーワードの判断及び再分類方法並びにシステムを提供する。【解決手段】主にまずワードプロセッシングサーバーに大量のテキスト及びトレジャーキーワードを入力して機械学習を行い、トレジャーキーワード及びトレジャーキーワードと関連する多くのラベルのラーニングを行い、価値の定義に適合するテキスト内のトレジャーキーワードを学習及び判断する。さらにテキスト中から抜粋した後に再分類を行い、各トレジャーキーワードに各種関連性ラベルを貼り、後続のトレジャーキーワードの応用を便利にする。【選択図】図３

Description

本発明は、機械学習を利用したシステムに関し、より詳しくは、テキストからトレジャーキーワードを抜粋し、トレジャーキーワードを分類するシステム及び方法に関する。

現在ネットの世界には大量の情報テキスト、文章、短文等が溢れている。このような大量の情報コンテンツは、ネットワークのユーザー側、ネットワークデータ処理側、ネットワーク広告提供側等にとって大量の情報の中から有用な情報を精確に取得する或いはその有用な情報を応用することが難しかった。よって、ネットワークの情報の中から有用な情報を高速且つ精確に取得することは、ネットワークの発展にとって非常に重要であった。また、人力の代わりに機械を使用してテキスト情報を能動的に収集し、機械学習により有用な情報を判断すると共に取り出すことが、現在各業界が注力している目標であった。従来の特許文献では、例えば、下記特許文献１の「マーケティングターゲットの人気予測方法及び非一時的なコンピュータ可読媒体」という記載があり、前記技術では、まずソーシャルメディアからマーケティングカテゴリに対応する文章をダウンロードし、単語に分割することによって複数のキーワードを取得し、時系列方式でキーワードの関連性を決定すると共にニューラルネットワークモデルを構築する。最後に適用する者がキーワードを使用した際に、関連度に基づいてユーザーにその他のキーワードを提供する。

台湾特許第６６０３１７号明細書

しかしながら、前述の台湾特許出願は、キーワードを分析する際に露出量のみを考慮しており、クリック頻度、ワード出現頻度、ワード使用頻度等の他のデータは考慮していない。また、前記出願は複数のキーワードを取得する際に、ワード分割技術を採用している。ワード分割技術は現在テキストからキーワードを抜粋する技術で一定のシェアを得ているが、例えば、流行語、中英混成語、ネットスラング等はキーワードではないが、データ分析においては有意義（または有価値）なワードである。最後に、前記台湾特許出願はユーザーがキーワードを使用すると、関連するまたは相似するキーワードのみを提供し、その他の分類、カテゴリ、分野等のその他のデータを提供することに関しては言及していない。

そこで、本発明者は従来のトレジャーキーワードの抜粋及び使用技術には前述の欠点が確かに存在するため、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。

本発明はこうした状況に鑑みてなされたものであり、その目的は、テキストからトレジャーキーワードを識別し、且つトレジャーキーワードの再分類を行うシステム及び方法を提供することにある。

上記課題を解決するために、本発明は主にワードプロセッシングサーバーを備え、データプロバイダーがまずネット記事、電子メール広告テキスト、商品説明文等のテキストデータを入力し、テキスト情報が対応するトレジャーキーワードの基礎とし、且つ第一回機械学習を行い、システムにテキスト内のトレジャーキーワードを学習及び判断させる。また、システムはまず入力されたトレジャーキーワード及びトレジャーキーワードと関連する分類ラベルの第二回機械学習を行い、システムがテキストからトレジャーキーワードを抜粋するのみならず、抜粋完了後に抜粋したトレジャーキーワードの分類を行う。最後にトレジャーキーワードに関連する各種ラベルを付与し、後続のトレジャーキーワードの使用時に、テキストから分離して判断するのみならず、ラベル分類に基づいた異なる応用を可能とする。

本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。

本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図（１）である。本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図（２）である。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示すフローチャートである。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図（１）である。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図（２）である。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図（３）である。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図（４）である。本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図（５）である。本発明の他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。本発明のさらなる他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。

以下、本開示の実施形態について図面を用いて説明する。なお、本開示は、下記の実施形態に何ら限定されることはなく、本開示の技術的範囲に属する限り種々の形態を採りうる。

本発明のトレジャーキーワードの判断及び再分類システム１は、ワードプロセッシングサーバー１１を備え、ワードプロセッシングサーバー１１と情報接続している第三者検索システム１２及びデータプロバイダーデバイス１３を少なくとも有している（図１参照）。以下、各構成部材の機能を例示する。
＜ワードプロセッシングサーバー１１＞

ワードプロセッシングサーバー１１はデータプロバイダーデバイス１３が送信したデータを受信した後に機械学習を行い、学習したデータに基づいて複数のモデルを構築する。ワードプロセッシングサーバー１１が第三者検索システム１２により収集したテストするデータ中からトレジャーキーワードを判断して抜粋し、トレジャーキーワードの分類を行う。最後に、分類したカテゴリに基づいて各トレジャーキーワードに分類ラベル情報を付与する。
＜第三者検索システム１２＞

第三者検索システム１２は検索エンジンデータベース、広告データベース、テキストデータベースのうちの何れか１種類またはそれらの組み合わせであり、但し、ワードプロセッシングサーバー１１は必要なテストする入力サンプルを獲得可能なシステムであれば全て実施可能である。
＜データプロバイダーデバイス１３＞

データプロバイダーデバイス１３は携帯電話、タブレット端末、パソコン等の設備のうちの何れか１種類であり、但し、ワードプロセッシングサーバー１１が機械学習を行うために必要なデータを提供できるものであれば全て実施可能である。データプロバイダーデバイス１３は主にワードプロセッシングサーバー１１が機械学習を行ってモデルを構築する際に必要なテキスト情報、トレジャーキーワード情報、及び分類カテゴリ情報を提供する。前述の情報については後述する。

また、ワードプロセッシングサーバー１１は主に、データストレージモジュール１１２、データ収集モジュール１１３、ワード判断モジュール１１４、及びワード再分類モジュール１１５にそれぞれ情報接続しているデータ処理モジュール１１１を備えている。データ処理モジュール１１１はワードプロセッシングサーバー１１を作動させ、上述の各モジュールが作動するように駆動させる。データ処理モジュール１１１は論理演算を行い、演算結果を一時保存し、命令実行位置を保存する等の機能を備え、例えば、中央処理装置（Central Processing Unit、CPU）であるが、これに限られない。

データストレージモジュール１１２は電子データを保存するためのSSD（Solid State Disk or Solid State Drive）、HDD（Hard Disk Drive）、或いはメモリのうちの何れか１種類である。データストレージモジュール１１２はワード判断データベース１１２１、ワード再分類データベース１１２２、及び分類完全データベース１１２３を保存している。ワード判断データベース１１２１はテキスト情報Ｔ１及び第一トレジャーキーワード情報Ｌ１を保存及び記録し、テキスト情報Ｔ１及び第一トレジャーキーワード情報Ｌ１はデータプロバイダーデバイス１３から提供される。テキスト情報Ｔ１は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報Ｌ１は主にテキスト情報Ｔ１内の文中にあるトレジャーキーワードに対応し、さらにトレジャーキーワードはキーワードのみならず流行語、中英混成語、ネットスラング等の有意義な時代を表すワードを含み、これらは全てトレジャーキーワードの定義に適合する。また、トレジャーキーワードはデータプロバイダーデバイス１３により標記し、この標記はトレジャーキーワードがテキストに出現する出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度等の関連データを基礎として行う。ワード再分類データベース１１２２は第二トレジャーキーワード情報Ｔ２及び分類カテゴリ情報Ｌ２を保存し、第二トレジャーキーワード情報Ｔ２は前述の第一トレジャーキーワード情報Ｔ１と同じであるが、ここでは、第二トレジャーキーワード情報Ｔ２は後述する第二機械学習に基づいて入力するデータであり、よって対応していないテキスト情報である。ここでは、分類カテゴリ情報Ｌ２は第二トレジャーキーワード情報Ｔ２に対応する情報であり、分類カテゴリ情報Ｌ２はデータプロバイダーデバイス１３により標記し、トレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等に対応し、分類ラベルの属性、機能、効果、特徴、ブランド等でもよい。分類完全データベース１１２３は主にテストするトレジャーキーワード情報及び分類ラベル情報を保存する。上述の情報については詳しく後述する。

データ収集モジュール１１３は主に第三者検索システム１２によりテストするテキスト情報を収集し、且つテストするテキスト情報を後続のワード判断モジュール１１４に伝送する。データ収集モジュール１１３は主にブラウザ検索、データキャプチャ、Webクローラー（Web Crawler）等の方式またはそれらの組み合わせを使用してテストするテキストデータを収集する。また、テストするテキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これらに限られない。なお、テストするテキスト情報は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。

ワード判断モジュール１１４は主にデータ収集モジュール１１３が送信したテストするテキスト情報内にあるトレジャーキーワードを判断し、テストするトレジャーキーワード情報として抜粋し、後続のワード再分類モジュール１１５に伝送する。ワード判断モジュール１１４は主に教師あり学習（Supervised Learning）、半教師あり学習（Semi-Supervised Learning）、或いは強化学習（Reinforcement Learning）等の強化学習（Machine Learning）を使用してモデルを構築するが、これに限られない。ワード判断モジュール１１４は主にテキスト情報Ｔ１をモデルのラーニング時の入力データとし、第一トレジャーキーワード情報Ｌ１をモデルのラーニング時のラベルデータとして第一機械学習を行うと共にモデルを構築する。

ワード再分類モジュール１１５は主にワード判断モジュール１１４が送信したテストするトレジャーキーワード情報を分類すると共に分類結果に基づいてトレジャーキーワード情報を分類ラベル情報に付与する。最後に、テストするトレジャーキーワード情報及び分類ラベル情報を分類完全データベース１１２３に保存する。ワード再分類モジュール１１５は主に教師あり学習（Supervised Learning）、半教師あり学習（Semi-Supervised Learning）、或いは強化学習（Reinforcement Learning）等の強化学習（Machine Learning）を使用してモデルを構築する。ワード再分類モジュール１１５は主に第二トレジャーキーワード情報Ｔ２をモデルのラーニング時の入力データとし、分類カテゴリ情報Ｌ２をモデルのラーニング時のラベルデータとして第二機械学習を行うと共にモデルを構築する。

次に、図１～３を参照しながら、本発明の実施形態を詳しく説明する。
＜テストする情報の入力ステップＳ１＞

図４に示すように、ワードプロセッシングサーバー１１のデータ収集モジュール１１３は第三者検索システム１２によりテストするテキスト情報Ｄ１を収集すると共にワードプロセッシングサーバー１１に伝送した後、テストするテキスト情報Ｄ１をワード判断モジュール１１４に伝送する。テストするテキスト情報Ｄ１はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これに限られない。また、テストするテキスト情報Ｄ１は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。
＜第一モデル比較ステップＳ２＞

前項のステップを受けて、図５と図６を併せて参照し、ワード判断モジュール１１４はデータ収集モジュール１１３が送信したテストするテキスト情報Ｄ１を受信した後、テストするテキスト情報Ｄ１及び第一機械学習の比較及び分析を行う。第一機械学習モデルを構築する場合、ワード判断データベース１１２１中のテキスト情報Ｔ１を第一ラーニング入力情報とし、第一トレジャーキーワード情報Ｌ１を第一ラベル情報としてモデルを構築し、最後にテストするテキスト情報Ｄ１の分析、比較、及び判断を行う。テキスト情報Ｔ１は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報Ｌ１は主にテキスト情報Ｔ１内の文中にあるトレジャーキーワードに対応し、さらに、トレジャーキーワードはキーワードのみならず、流行語、中英混成語、ネットスラング等の有意義なワードを全てトレジャーキーワードとして含んでいる。例えば、第一機械学習により、ワード判断モジュール１１４がテキスト情報Ｔ１から「防疫」、「マスク」、「肺炎」、「COVID-19」等の単語をトレジャーキーワードとして学習し、且つ防疫公報等のネット記事やネットエッセイ中に「防疫」、「マスク」、「肺炎」、「COVID-19」等の関連するトレジャーキーワードがあるか否か判断する。以上は例示にすぎず、これに限定するわけではない。
＜トレジャーキーワードの判断ステップＳ３＞

前項のステップを受けて、図７を併せて参照し、ワード判断モジュール１１４はテストするテキスト情報Ｄ１を判断し、第一機械学習の結果に基づいてテストするテキスト情報Ｄ１内のテキストからテストするトレジャーキーワード情報Ｄ２を抜粋し、且つテストするトレジャーキーワード情報Ｄ２をワード再分類モジュール１１５に伝送する。例えば、ワード判断モジュール１１４が防疫公報中から「防疫」、「マスク」、「肺炎」、及び関連するトレジャーキーワードとして「ワクチン」、「隔離」等のワードを抜粋し、抜粋したトレジャーキーワードを後続のモジュールに伝送して分類する。以上は例示にすぎず、これに限定するわけではない。
＜第二モデル比較ステップＳ４＞

図７に示すように、ワード再分類モジュール１１５はワード判断モジュール１１４が抜粋したテストするトレジャーキーワード情報Ｄ２を受信し、且つテストするトレジャーキーワード情報Ｄ２及び第二機械学習の分析及び比較を行う。第二機械学習モデルを構築する場合、ワード再分類データベース１１２２中の第二トレジャーキーワード情報Ｔ２を第二ラーニング入力情報とし、分類カテゴリ情報Ｌ２を第二ラベル情報としてモデルを構築し、最後にテストするトレジャーキーワード情報Ｄ２の分析及び比較を行う。第二トレジャーキーワード情報Ｔ２はキーワード、流行語、同義語、表音文字等でもよく、但しこれらに限られない。また、分類カテゴリ情報Ｌ２は主に第二トレジャーキーワード情報Ｔ２に対応する分類カテゴリであり、さらに、分類カテゴリ情報Ｌ２は第二トレジャーキーワード情報Ｔ２中のトレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等を含むが、これに限られない。例えば、第二機械学習により、ワード再分類モジュール１１５が第二トレジャーキーワード情報Ｔ２から「マスク」が属する分類が医療、疾病、食品、健康、旅行等であることを学習する。特に、前述の属する分類は分類されるラベル属性を含み、ラベル属性としては「マスク」のブランド、商品の特徴、機能、効果、効用等がある。また、肺炎が属する分類としては医療、疾病、感染、インフルエンザがあり、「COVID-19」が属する分類としては医療、ウィルス、コロナウィルス、世界的、変異種等の分類カテゴリがある。以上は例示にすぎず、これに限定するわけではない。
＜トレジャーキーワードの再分類ステップＳ５＞

前項のステップを受けて、図８を併せて参照し、ワード再分類モジュール１１５はテストするトレジャーキーワード情報Ｄ２を判断し、第二機械学習の結果に基づいてテストするトレジャーキーワード情報Ｄ２に分類ラベル情報Ｄ３を付与する。最後に、ワード再分類モジュール１１５はテストするトレジャーキーワード情報Ｄ２及び分類ラベル情報Ｄ３を分類完全データベース１１２３に保存する。分類ラベル情報Ｄ３は分類カテゴリ情報Ｌ２と同じであるが、ここではテストするトレジャーキーワード情報Ｄ２に対応する、属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等についてのみであり、これらに限られない。例えば、トレジャーキーワードの判断ステップＳ３の例としては、トレジャーキーワードである「防疫」、「マスク」、「肺炎」、「ワクチン」、及び「隔離」は全て医療に分類され、「マスク」はさらに疾病、食品、健康にも分類され、「肺炎」はさらに医療、疾病、感染、インフルエンザ等にも分類される。以上は例示にすぎず、これに限定するわけではない。

また、図９に示すように、トレジャーキーワードの再分類ステップＳ５の後にさらに続けて抜粋使用ステップＳ６を実行し、ユーザーがユーザー側装置を使用してワードプロセッシングサーバー１１によりトレジャーキーワードを検索、抜粋、または使用する場合、トレジャーキーワードに対応する分類カテゴリラベルも一緒にワードプロセッシングサーバー１１により抜粋され、ユーザー側装置により使用される。例えば、ユーザーＡが携帯電話を使用し、ワードプロセッシングサーバー１１により「マスク」を検索すると、「マスク」に属する分類ラベルの医療、疾病、食品、健康、交通も一緒に抜粋し、ユーザーＡに提供する。以上は例示にすぎず、これに限定するわけではない。

また、図１０に示すように、ワードプロセッシングサーバー１１は、データプロバイダーデバイス１３が提供する補正情報を受信し、受信した補正情報に基づいて前記ワード判断モジュール１１４の第一機械学習及びワード再分類モジュール１１５の第二機械学習の結果を調整するための補正モジュール１１６をさらに備えている。例えば、データプロバイダーデバイス１３が補正情報を送信し、「マスク」の分類ラベルの食品を削除すると、補正モジュール１１６がこの補正情報を受信した後にワード再分類モジュール１１５を調整する。以上は例示にすぎず、これに限定するわけではない。

以上を総合すると、本発明に係るトレジャーキーワードの判断及び再分類方法並びにシステムは、２回の機械学習方式により、システムがトレジャーキーワードを文中から判断して抜粋し、トレジャーキーワードの分類を行い、分類カテゴリに基づいてトレジャーキーワードに各種ラベルを付与する。これにより、本発明を実施することで、テキストからトレジャーキーワードを確実に識別し、トレジャーキーワードを再分類する目的を達成している。

上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは言うまでもない。

１トレジャーキーワードの判断及び再分類システム
１１ワードプロセッシングサーバー
１１１データ処理モジュール
１１２データストレージモジュール
１１２１ワード判断データベース
１１２２ワード再分類データベース
１１２３分類完全データベース
１１３データ収集モジュール
１１４ワード判断モジュール
１１５ワード再分類モジュール
１１６補正モジュール
１２第三者検索システム
１３データプロバイダーデバイス
Ｔ１テキスト情報
Ｌ１第一トレジャーキーワード情報
Ｔ２第二トレジャーキーワード情報
Ｌ２分類カテゴリ情報
Ｄ１テストするテキスト情報
Ｄ２テストするトレジャーキーワード情報
Ｄ３分類ラベル情報
Ｓ１テストする情報の入力ステップ
Ｓ２第一モデル比較ステップ
Ｓ３トレジャーキーワードの判断ステップ
Ｓ４第二モデル比較ステップ
Ｓ５トレジャーキーワードの再分類ステップ
Ｓ６抜粋使用ステップ

Claims

ワードプロセッシングサーバーのデータ収集モジュールが第三者検索システムによりテストするテキスト情報を収集し、前記テストする前記テキスト情報を前記ワードプロセッシングサーバーのワード判断モジュールに伝送する、テストする情報の入力ステップと、
前記ワード判断モジュールは、前記テストする前記テキスト情報を分析及び比較して前記トレジャーキーワードを判断し、前記ワード判断モジュールは前記ワードプロセッシングサーバーのワード判断データベース中のテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行うと共に学習を完了するモジュールである第一モデル比較ステップと、
前記第一モデル比較ステップを受けて、前記ワード判断モジュールが前記テストする前記テキスト情報から、前記第一機械学習の結果に基づいてテストするトレジャーキーワード情報を抜粋し、前記テストする前記トレジャーキーワード情報を前記ワードプロセッシングサーバーのワード再分類モジュールに伝送するトレジャーキーワードの判断ステップと、
前記ワード再分類モジュールは前記テストする前記トレジャーキーワード情報を分析及び比較し、前記テストする前記トレジャーキーワード情報を分類し、前記ワード再分類モジュールは、前記ワードプロセッシングサーバーのワード再分類データベース中の第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行うと共に学習を完了するモジュールである第二モデル比較ステップと、
前記第二モデル比較ステップを受けて、前記ワード再分類モジュールは前記第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、且つ前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記ワードプロセッシングサーバーの分類完全データベースに保存するトレジャーキーワードの再分類ステップと、を含むことを特徴とするトレジャーキーワードの判断及び再分類方法。
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか１種類またはそれらの組み合わせ情報であることを特徴とする請求項１に記載のトレジャーキーワードの判断及び再分類方法。
前記テキスト情報、前記第一トレジャーキーワード情報、前記第二トレジャーキーワード情報、及び前記分類カテゴリ情報はデータプロバイダーデバイスから提供されていることを特徴とする請求項１に記載のトレジャーキーワードの判断及び再分類方法。
前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか１種類を主に使用していることを特徴とする請求項１に記載のトレジャーキーワードの判断及び再分類方法。
前記トレジャーキーワードの再分類ステップ後にさらに続けて抜粋使用ステップを実行し、使用者側が使用者側装置により前記ワードプロセッシングサーバーから前記トレジャーキーワードを抜粋すると、前記分類ラベル情報も前記ワードプロセッシングサーバーから一緒に抜粋されることを特徴とする請求項１に記載のトレジャーキーワードの判断及び再分類方法。
主にデータストレージモジュール、データ収集モジュール、ワード判断モジュール、及びワード再分類モジュールと情報接続しているデータ処理モジュールを含み、前記データ処理モジュールが作動させるワードプロセッシングサーバーと、
テストするテキスト情報を前記ワードプロセッシングサーバーに提供する第三者検索システムと、
前記テキスト情報、第一トレジャーキーワード情報、第二トレジャーキーワード情報、及び分類カテゴリ情報を前記ワードプロセッシングサーバーに提供するデータプロバイダーデバイスと、を備え、
前記データストレージモジュールは主にワード判断データベースと、ワード再分類データベースと、分類完全データベースとを含み、
前記データ収集モジュールは主に前記テストする前記テキスト情報を収集すると共に前記ワード判断モジュールに伝送し、
前記ワード判断モジュールは前記ワード判断データベースに保存しているテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行い、前記ワード判断モジュールは前記第一機械学習の結果に基づいて前記テストする前記テキスト情報中からテストするトレジャーキーワード情報を判断し、前記テストする前記トレジャーキーワード情報を抜粋すると共に前記ワード再分類モジュールに伝送し、
前記ワード再分類モジュールは前記ワード再分類データベースに保存している第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行い、前記ワード再分類モジュールは第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報を分類し、且つ分類の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記分類完全データベースに保存することを特徴とするトレジャーキーワードの判断及び再分類システム。
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか１種類またはそれらの組み合わせ情報であることを特徴とする請求項６に記載のトレジャーキーワードの判断及び再分類システム。
前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか１種類を主に使用していることを特徴とする請求項６に記載のトレジャーキーワードの判断及び再分類システム。
前記ワードプロセッシングサーバーは、前記データプロバイダーデバイスから提供される補正情報に基づいて前記第一機械学習及び前記第二機械学習の結果を調整するための補正モジュールをさらに備えていることを特徴とする請求項６に記載のトレジャーキーワードの判断及び再分類システム。