JP2019053730A - 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム - Google Patents

文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム Download PDF

Info

Publication number
JP2019053730A
JP2019053730A JP2018169490A JP2018169490A JP2019053730A JP 2019053730 A JP2019053730 A JP 2019053730A JP 2018169490 A JP2018169490 A JP 2018169490A JP 2018169490 A JP2018169490 A JP 2018169490A JP 2019053730 A JP2019053730 A JP 2019053730A
Authority
JP
Japan
Prior art keywords
category
learning
document
vector
correct answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018169490A
Other languages
English (en)
Other versions
JP6629935B2 (ja
Inventor
ソンモ ホン
Sung Mo Hong
ソンモ ホン
ホンソク チャン
Heon Seok Jang
ホンソク チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019053730A publication Critical patent/JP2019053730A/ja
Application granted granted Critical
Publication of JP6629935B2 publication Critical patent/JP6629935B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステムを提供する。【解決手段】 コンピュータによって実現されるカテゴリ学習方法は、前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものとして、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築する段階を含む。【選択図】 図4

Description

以下の説明は、文書と関連のあるカテゴリを学習する技術に関する。
インターネット上には数万〜数億件もの文書が存在しているが、知識共有サービスをはじめ、ブログや各種SNS(social network service)などの活性化によってその数は幾何級数的に増加し続けている。このような文書には多くの情報が含まれているが、文書に含まれる情報にアクセスするために、検索システムや分析システムなどが多様に使用されている。
文書に含まれる情報にアクセスするための検索および分析システムは、文書をカテゴリ別に区分することによってアクセス性を高めるものが大部分である。例えば、インターネットニュースを提供するポータル検索システムでは、文書を政治、社会、経済、芸能などのカテゴリ別に分類することによって文書に対するアクセス性を高めている。
最初の頃は、このような文書の分類を人間が直接行っていたが、情報の数が急増するに伴い、多くの文書を自動で分類することのできる文書分類技術に関する研究が活発に進められている。
文書分類技術の一例として、特許文献1(公開日2001年11月16日)には、カテゴリ学習技法を利用してウェブ文書を主題別に自動分類する技術が開示されている。
特に、規模が大きく階層の深い分類体系では、ユーザが適切な分類名を見つけるのに困難をきたすことがある。このような現象を解決するために、階層的分類体系で作成した文書にも適した分類名を勧めることのできるシステムが必要となっている。
韓国公開特許公報第10−2001−0102687号
学習文書の正解カテゴリを基準として誤答カテゴリを選択的にサンプリングし、学習文書に対して正解カテゴリと誤答カテゴリを共に学習することができる方法およびシステムを提供する。
コンピュータによって実現されるカテゴリ学習方法であって、前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものであり、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習することによって文書自動分類のための学習モデルを構築する段階を含む、カテゴリ学習方法を提供する。
本発明の実施形態によると、学習文書の正解カテゴリを基準にして誤答カテゴリを選択的にサンプリングし、学習文書に対して正解カテゴリと誤答カテゴリを共に学習することにより、文書のカテゴリ分類のための学習モデルの正確度を改善し、文書の分類性能を向上させることができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、サーバのプロセッサが実行することのできる方法の例を示した図である。 本発明の一実施形態における、学習用データとして使用される学習文書の例を示した図である。 本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。 本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。 本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。 本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。 本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。 本発明の一実施形態における、カテゴリ学習過程を説明するための例示図である。 本発明の一実施形態における、カテゴリ学習過程を説明するための例示図である。 本発明の一実施形態における、文書のカテゴリを自動分類する過程の例を説明するための図である。
<発明の概要>
コンピュータによって実現されるカテゴリ学習方法であって、前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものであり、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習することによって文書自動分類のための学習モデルを構築する段階を含む、カテゴリ学習方法を提供する。
一側面によると、前記選定する段階は、前記正解カテゴリと階層の一部が等しいカテゴリのうちから無作為サンプリングによって前記誤答カテゴリを選定してよい。
他の側面によると、前記選定する段階は、前記正解カテゴリの最下位階層を除いた残りの階層の各深さ別に、該当の階層まで等しいカテゴリのうちから前記誤答カテゴリをサンプリングする段階を含んでよい。
また他の側面によると、前記選定する段階は、前記正解カテゴリの最上位階層を除いた残りのカテゴリのうちから前記誤答カテゴリを追加でサンプリングする段階をさらに含んでよい。
また他の側面によると、前記構築する段階は、前記学習文書と、前記正解カテゴリおよび前記誤答カテゴリをそれぞれベクトル化してベクトル空間にマッピングする段階、および前記学習文書のベクトルを基準にして前記正解カテゴリのベクトルと前記誤答カテゴリのベクトルを同時学習する段階を含んでよい。
また他の側面によると、前記学習する段階は、前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ近くなるように、前記誤答カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ遠くなるように、学習してよい。
また他の側面によると、前記カテゴリ学習方法は、新たな文書が入力されると、入力された文書と関連のあるカテゴリを前記学習モデルによって判断することにより、該当の文書のカテゴリを分類する段階をさらに含んでよい。
また他の側面によると、前記分類する段階は、前記新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは前記新たな文書の正解カテゴリとして自動マーキングしてよい。
カテゴリ学習方法を実行させるコンピュータプログラムであって、前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものであり、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および前記学習文書に対して前記正解カテゴリと前記誤答カテゴリを共に学習することで、文書自動分類のための学習モデルを構築する段階を含む、コンピュータプログラムを提供する。
コンピュータによって実現されるカテゴリ学習システムであって、コンピュータが読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、文書のカテゴリとして階層構造を有するカテゴリを学習するためのものとして、各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する学習データ選定部、および前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習することによって文書自動分類のための学習モデルを構築するカテゴリ学習部を備える、カテゴリ学習システムを提供する。
<発明の詳細>
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態は、文書と関連のあるカテゴリを学習する技術に関し、より詳細には、ディープラーニングを利用して文書に相応するカテゴリを学習しようとするとき、効果的なサンプリング方式を利用して文書のカテゴリを学習することができる方法およびシステムに関する。
本明細書で具体的に開示される事項などを含む実施形態は、学習文書に対して複数のカテゴリを選択的に選定して学習文書のカテゴリを学習することができ、これによって正確性、効率性、信頼性、費用節減などの側面において相当な長所を達成することができる。
本明細書において、「カテゴリ」とは、文書の種類や関連分野などを分類するためのものであって、少なくとも2つ以上の深さ(depth)からなる階層的構造を有する。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、タブレット、ナビゲーション、PC(personal computer)、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)などがある。一例として、第1電子機器110は、無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信してよい。
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供するコンピュータ装置または複数のコンピュータ装置によって実現されてよい。
一例として、サーバ160は、ネットワーク170を介して接続した第1電子機器110にアプリケーションのインストールのためのファイルを提供してよい。この場合、第1電子機器110は、サーバ160から提供されたファイルを利用してアプリケーションをインストールしてよい。また、第1電子機器110が含むオペレーティングシステム(Operating System:OS)や少なくとも1つのプログラム(一例として、ブラウザや前記インストールされたアプリケーション)の制御にしたがってサーバ150に接続し、サーバ150が提供するサービスやコンテンツの提供を受けてもよい。例えば、第1電子機器110がアプリケーションの制御にしたがい、ネットワーク170を介してサービス要求メッセージをサーバ150に送信すると、サーバ150はサービス要求メッセージに対応するコードを第1電子機器110に送信してよく、第1電子機器110はアプリケーションの制御にしたがってコードに基づいた画面を構成して表示することにより、ユーザにコンテンツを提供してよい。
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、1つの電子機器の例として第1電子機器110の内部構成を、1つのサーバの例としてサーバ150の内部構成を説明する。他の電子機器120、130、140やサーバ160も、同一または類似の内部構成を有してよい。
第1電子機器110とサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、第1電気機器110にインストールされ駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
第1電子機器110とサーバ150は、メモリ211、221の他に、第1電子機器110とサーバ150によって使用されるかこれによって出力される情報を格納するためのデータベースシステム(図示せず)をさらに含んでよい。データベースシステムは、揮発性メモリ、永久、仮想、またはその他のメモリを含んでよく、例えば、RAM(random access memory)および/またはDRAM(dynamic RAM)を含んでよい。
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信モジュール213、223は、ネットワーク170を介して第1電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、他の電子機器(一例として、電子機器2(120))または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、第1電子機器110のプロセッサ212がメモリ211のような記録装置に格納されたプログラムコードにしたがって生成した要求(一例として、検索要求)が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て第1電子機器110の通信モジュール213を通じて第1電子機器110に受信されてもよい。例えば、通信モジュール213を通じて受信したサーバ150の制御信号や命令などは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、第1電子機器110がさらに含むことのできる格納媒体に格納されてよい。
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を含んでよく、出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。より具体的な例として、第1電子機器110のプロセッサ212は、メモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や第2電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。入力/出力インタフェース224も同じように、サーバ150のプロセッサ222がメモリ221にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150が提供するデータを利用して構成される情報を出力してよい。
また、他の実施形態において、第1電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、第1電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、第1電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラ、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が第1電子機器110にさらに含まれるように実現されてもよいことが理解できるであろう。
以下では、文書のカテゴリを学習する方法およびシステムの具体的な実施形態について説明する。
図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、サーバのプロセッサが実行することのできる方法の例を示したフローチャートである。
本実施形態に係るサーバ150には、コンピュータによって実現されたカテゴリ学習システムが構成されてよい。カテゴリ学習システムは、文書分類のためのカテゴリ分類器モデルを学習し、与えられた文書のカテゴリを自動で分類する環境を提供するものであってよい。
図4のカテゴリ学習方法を実行するために、サーバ150のプロセッサ222は、構成要素として、図3に示すように、学習データ選定部310、カテゴリ学習部320、カテゴリ分類部330を備えてよい。実施形態によって、プロセッサ222の構成要素は、選択的に、プロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために、分離されても併合されてもよい。
このようなプロセッサ222およびプロセッサ222の構成要素は、図4のカテゴリ学習方法が含む段階410〜440を実行するようにサーバ150を制御してよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードによる命令を実行するように実現されてよい。
ここで、プロセッサ222の構成要素は、サーバ150に格納されたプログラムコードが提供する命令にしたがってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能の表現であってよい。例えば、サーバ150がカテゴリ学習のための学習データを選定するように、上述した命令にしたがってサーバ150を制御するプロセッサ222の機能的表現として、学習データ選定部310が利用されてよい。
サーバ150は、任意の文書が与えられたときに、与えられた文書を、該当の文書と相応するカテゴリに自動分類しようとするものである。サーバ150は、カテゴリがマーキングされた文書を学習データとして利用してディープラーニングモデルに基づいて学習することによってカテゴリ分類器モデルを構築してよく以後、新たな文書が入力されれば、入力された文書のカテゴリをテゴリ分類器モデルによって判断して自動分類してよい。
カテゴリ分類器モデルを構築するためには、先ず、単語のベクトル化、文書のベクトル化、カテゴリのベクトル化が必要となる。このとき、文書のベクトル化は、文書に含まれた単語の組み合わせに基づいてなされてよい。
文書と関連のあるカテゴリを見つけるためには、文書ベクトルに近いカテゴリベクトルを見つけられるように学習すること、言い換えれば、サーバ150は、文書と関連のあるカテゴリのベクトルが、該当の文書のベクトルと近くなるようにする学習によってカテゴリ分類器モデルを構築する。このとき、サーバ150は、学習文書からポジティブサンプルである正解カテゴリとネガティブサンプルである誤答カテゴリを選定して同時に学習するようになるが、このとき、正解カテゴリのベクトルは学習文書のベクトルと近くなるように、誤答カテゴリのベクトルは学習文書のベクトルから遠くなるように、学習する。
本実施形態では、ディープラーニングを利用して文書に適合するカテゴリを学習しようとするときに、効果的なサンプリング方式を利用することにより、正確度の高いカテゴリ分類器モデルを構築することができる。
段階410で、プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明される段階420〜440をプロセッサ222が実行するように制御するための命令を含んでよい。
段階420で、学習データ選定部310は、文書の自動分類のためのカテゴリ分類器モデルを学習するために学習文書を選定し、選定された学習文書それぞれに対し、事前に設定された正解カテゴリに基づいて誤答カテゴリを選定してよい。サーバ150では、正解カテゴリがマーキングされた文書を学習用データとしながらディープラーニング学習モデルを学習してよい。このとき、学習データ選定部310は、サーバ150と関連する文書DB上から、文書の品質指数に基づいてカテゴリがマーキングされた文書のうちの少なくとも一部の文書を学習文書として選定してよい。文書の品質指数は、例えば、文書に登録された返答の有無や返答数、文書に返答を登録した返答者の信頼度などを考慮した上で算出可能である。文書DB上の文書には、該当の文書と関連のあるカテゴリがマーキングされており、文書にマーキングされたカテゴリを正解カテゴリとする。また、学習データ選定部310は、学習文書に対する誤答カテゴリとして正解カテゴリと異なるカテゴリを選定するようになるが、特に、学習文書の正解カテゴリの階層の一部と等しいカテゴリをサンプリングすることによって誤答カテゴリを選定してよい。言い換えれば、学習データ選定部310は、学習文書の正解カテゴリと異なるカテゴリをカテゴリ全体の中から無作為に選定するのではなく、所定の規則、一例として、学習文書の正解カテゴリを基準とし、階層の一部が正解カテゴリと重複する範囲内から少なくとも1つの誤答カテゴリを選定してよい。誤答カテゴリを選定する具体的な方法については、以下で詳しく説明する。
段階430で、カテゴリ学習部320は、学習文書を利用してカテゴリ分類器モデルを学習するようになるが、このとき、学習文書別に正解カテゴリと誤答カテゴリを共に学習することにより、カテゴリ学習結果を含んだカテゴリ分類器モデルを構築してよい。先ず、カテゴリ学習部320は、学習文書に含まれる単語を多次元実数ベクトルによって表現および組み合わせる(例えば、合算)ことによって該当の文書をベクトル化してよく、正解カテゴリと誤答カテゴリも同じように、多次元実数ベクトルによって表現してカテゴリをベクトル化してよい。
より具体的な例としては、ユーザの文書をベクトル化する方法としてCNNを使用してよい。自然語文章を形態素単位に分割し、各形態素に対応するベクトルに文章全体を変換し、多様な大きさのフィルタを使用するConvolution階層とMax pooling階層に通過させ、文書を近接した単語どうし一次的に解釈する。解釈した内容をすべて集めて総合することができる文書ベクトルとして表現するために、完全連結階層の入力によって一次的解釈結果物を挿入し、出力部をベクトル空間次元の大きさのノードによって構成して完成させる。自然語文章を入れれば演算過程を経て最終ノードを有するようになる一連の値こそが、文書ベクトルの各次元を構成する要素となる。
次に、カテゴリ学習部320は、学習文書のベクトルと、正解カテゴリのベクトルおよび誤答カテゴリのベクトルを多次元ベクトル空間のベクトルとしてマッピングするが、正解カテゴリのベクトルは学習文書のベクトルに近くなるように、誤答カテゴリのベクトルは学習文書のベクトルから遠くなるように、学習してよい。一例として、カテゴリ学習部320は、学習文書のベクトルと正解カテゴリのベクトルとの距離に基づいて所定の割合を決定した後、学習文書のベクトルを基準に、決定された所定の割合だけ、正解カテゴリのベクトルは学習文書のベクトルに近くなるように、誤答カテゴリのベクトルは学習文書のベクトルから遠くなるように、学習する。具体的な学習方法としては、論文<Arpita Das et al.,“Together We Stand:Siamese Networks for Similar Question Retrieval”、https://www.aclweb.org/anthology/P/P16/P16−1036.pdf>に開示された学習技術が利用されてよいが、これに限定されることはなく、周知のディープラーニング技術が活用されてもよい。
このとき、学習に利用する誤答カテゴリベクトルの数を適切に調節すれば、最適値に迅速に到達できるようになるという効果が得られる。カテゴリベクトルがそれぞれ特定の地点に収斂されれば、当時のカテゴリベクトル位置を格納して学習を終了する。
分類体系の規模が大きい場合、相違する多数の分類名ベクトルと比較しながら相対的な位置を見つけるようになるため、神経網の加重値が正しい最適値に到達することができず、予測の正確度が著しく低下する。この場合、階層的構造の特性を利用しながら適切に学習データを選択することが重要となるが、本発明の実施形態に係るカテゴリサンプリングに関しては、以下で詳しく説明する。
段階440で、カテゴリ分類部330は、与えられた文書に対し、段階430で学習されたカテゴリ分類器モデルを利用して該当の文書のカテゴリを自動分類してよい。カテゴリ分類部330は、新たな文書が入力されれば、カテゴリ分類器モデルを通過させて該当の文書のカテゴリを判断してよい。言い換えれば、カテゴリ分類部330は、新たな文書に含まれた単語を多次元実数ベクトルによって表現および組み合わせる(例えば、合算)ことによって該当の文書をベクトル化してよく、新たな文書のベクトルを多次元ベクトル空間のベクトルにマッピングすることにより、新たな文書のベクトルと最も近いベクトルのカテゴリを新たな文書と関連のあるカテゴリとして判断してよい。カテゴリ分類部330は、新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは新たな文書の正解カテゴリとしてマーキングしてよい。
したがって、本発明に係るカテゴリ学習システムおよびカテゴリ学習方法は、文書のカテゴリ学習のためのカテゴリ選定時に、カテゴリの階層的構造を利用した所定の規則に基づいてカテゴリサンプリングを実行することができる。
図5は、本発明の一実施形態における、学習用データとして使用される学習文書の例を示した図である。
図5を参照すると、学習データ選定部310は、サーバ150と関連する文書DBから一部の文書500を学習用データとして選定してよい。学習用データとして利用される文書、すなわち学習文書500は、主にテキストで作成された文書はもちろん、イメージや動画などのような多様な形態のコンテンツを包括したものを意味してよい。例えば、知識共有サービス上の文書DBの場合、タイトルと本文を含んだ質問文書を学習文書500として利用してよい。このとき、学習データ選定部310は、文書DB上の文書から、返答の有無や返答数、返答を登録した返答者の信頼度などを土台とした品質指数を利用しながら一部の文書を学習文書500として選定してよい。学習文書500は、該当の文書と関連のあるカテゴリ(正解カテゴリ)510がマーキングされた文書を対象とする。
したがって、学習データ選定部310は、正解カテゴリがマーキングされた文書のうちから品質指数を利用したフィルタリングによって一部の文書を選定し、カテゴリ学習のための学習文書500として利用することができる。
以下では、学習のためのサンプルデータ、特に、誤答カテゴリを選定するための具体的な方法の例について説明する。
階層的構造の特性によると、同じカテゴリを共有する下位分類体系も独立的な分類体系の特徴をもっている。これにより、下位カテゴリ内でカテゴリベクトル位置を学習する下位問題として再定義すれば、下位問題を解決して全体問題を解決することができる。
下位問題を解決するために、誤答カテゴリサンプルを、学習カテゴリ名、さらにその上位カテゴリ名と重ならないように指定した最上位カテゴリ下から選択してよい。学習データ1つあたりに多数の誤答カテゴリを選択することができるため、多様な下位カテゴリから選ぶようにサンプリングすることが効果的である。言い換えれば、3段階以上の階層構造の場合、誤答カテゴリを各階層から選ぶように選択することによって成功的に学習することができる。
具体的な例として、学習データのカテゴリが上位階層から「あ>い>う>え」である場合、最初のサンプルは「あ>い>う」に属しながら「あ>い>う>え」に属さない範囲から、2番目のサンプルは「あ>い」に属しながら「あ>い>う」のすべての下位分類に属さない範囲から、3番目のサンプルは「あ」に属しながら「あ>い」のすべての下位分類に属さない範囲から、最後のサンプルはほぼすべての下位分類に属さない範囲から、抽出する。
図6〜10は、本発明の一実施形態における、カテゴリサンプリング過程を説明するための例示図である。
学習データ選定部310は、各学習文書に対し、該当の文書の正解カテゴリを基準として少なくとも1つの誤答カテゴリを選定してよい。例えば、図6に示すように、学習文書において、最上位階層から「あ>い>う>え」(depth4)のように正解カテゴリがマーキングされたとする。
学習文書の正解カテゴリとは関係なく無作為でカテゴリから誤答カテゴリをサンプリングする場合には、学習モデルの正確度は低下し、カテゴリ数が多ければ学習が成立しないという現象が発生する。
このような問題を解決するために、本発明では、誤答カテゴリを戦略的に選んで学習する方法を適用する。学習データ選定部310は、学習文書の正解カテゴリと一部の階層が重なるカテゴリ内から無作為サンプリングによって誤答カテゴリを選定してよい。一例として、カテゴリAの深さがnである場合はn個の誤答カテゴリを選定してよい。このとき、1番目の誤答カテゴリはn−1の深さから無作為サンプリングし、2番目の誤答カテゴリはn−2の深さから無作為サンプリングし、・・・、n番目の誤答カテゴリは最上位階層から無作為サンプリングする。
深さが4である「あ>い>う>え」の正解カテゴリがマーキングされた学習文書から4つの誤答カテゴリを選定しようとするとき、
先ず、1番目の誤答カテゴリは、図7に示すように、正解カテゴリと深さが3である3つの階層(あ>い>う)まで同じカテゴリ範囲710内から無作為にサンプリングしてよい。
次に、2番目の誤答カテゴリは、図8に示すように、正解カテゴリと深さが2である2つの階層(あ>い)まで同じカテゴリ範囲810内から無作為にサンプリングしてよい。
次に、3番目の誤答カテゴリは、図9に示すように、正解カテゴリと深さが1である1つの階層(あ)が同じカテゴリ範囲910内から無作為にサンプリングしてよい。
最後に、4番目の誤答カテゴリは、図10に示すように、全体のカテゴリ範囲から正解カテゴリの最上位階層(あ)以下のカテゴリを除いた残りのカテゴリ範囲1010内から無作為にサンプリングしてよい。図10を参照しながら説明した最後のサンプリング段階は、選択的に含まれても除外されてもよい。
したがって、学習データ選定部310は、学習文書の正解カテゴリと一部の階層が重なるカテゴリ範囲内から無作為サンプリングによって誤答カテゴリを選定することができる。上述したカテゴリサンプリングの最後の段階で説明したように、誤答カテゴリのうちの一部は、正解カテゴリの最上位階層以下のカテゴリを除いた残りのカテゴリ範囲内から無作為サンプリングすることも可能である。
上述では、カテゴリの深さがn個であるときはn個の誤答カテゴリ、すなわち、各深さの階層別に1つの誤答カテゴリを選定すると説明しているが、これに限定されることはなく、上述した規則を維持しながらサンプリングの割合などを調整することにより、誤答カテゴリの個数を確張してもよい。例えば、下位階層から上位階層にいくほどサンプリングの数を漸進的に増やしてよい。
図11〜12は、本発明の一実施形態における、カテゴリ学習過程を説明するための例示図である。
図11を参照すると、カテゴリ学習部320は、文書分類のためのカテゴリに対し、カテゴリのベクトル化によってカテゴリベクトル1101をベクトル空間1100上にマッピングしてよい。
図12に示すように、学習過程では、学習文書に該当する文書ベクトル1210またはカテゴリベクトル1101がマッピングされたベクトル空間1100にマッピングされ、このとき、カテゴリ学習部320は、カテゴリベクトル1101のうち学習文書と関連のあるカテゴリベクトルを文書ベクトル1210と近くなるように学習する。特に、カテゴリ学習部320は、学習文書の正解カテゴリと共に、学習文書の正解カテゴリを基準にして選定された誤答カテゴリを同時に学習するようになるが、カテゴリベクトル1101のうちでも、正解カテゴリのベクトル1201は文書ベクトル1210と近くなるように、誤答カテゴリのベクトル1202は文書ベクトル1210から遠くなるように、学習する。
学習文書の正解カテゴリとは関係なくカテゴリ全体から無作為に誤答カテゴリをサンプリングするのではなく、学習文書の正解カテゴリと一部の階層が重なるカテゴリ内から誤答カテゴリをサンプリングしてカテゴリ学習を実行することにより、学習モデルの正確度を上昇させることができる。
図13を参照すると、カテゴリ分類部330は、新たな文書1301が入力された場合、正解カテゴリと誤答カテゴリを同時に学習したカテゴリ分類器モデル1310を通過させ、該当の文書1301と関連のあるカテゴリ1311を判断してよい。カテゴリ分類部330は、新たな文書1301に対し、該当の文書1301と関連があると判断されたカテゴリを勧めるか、あるいは新たな文書1301の正解カテゴリとして自動マーキングしてよい。
このように、本発明の実施形態によると、学習文書の正解カテゴリを基準にして複数の誤答カテゴリを選択的にサンプリングし、学習文書に対して正解カテゴリと誤答カテゴリを共に学習することにより、文書のカテゴリ分類のための学習モデルの正確度を改善し、文書の分類性能を向上させることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスクのような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令語が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体がこれに含まれてもよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
本発明の実施形態は、さらに、階層的分類体系を使用するシステムにおいて、ユーザが作成した文書に適合する分類名を勧めることのできるモデルを提示する。ユーザが作成した文書をベクトルで表現し、同じ空間に分類名を意味するベクトルと比較して文書ベクトルと最も近い分類名ベクトルを勧めることのできる方法およびシステムを提供する。
222:プロセッサ
310:学習データ選定部
320:カテゴリ学習部
330:カテゴリ分類部

Claims (17)

  1. コンピュータによって実現されるカテゴリ学習方法であって、
    前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものとして、
    各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および
    前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築する段階
    を含む、カテゴリ学習方法。
  2. 前記選定する段階は、
    前記正解カテゴリと一部の階層が等しいカテゴリのうちから無作為サンプリングによって前記誤答カテゴリを選定すること
    を特徴とする、請求項1に記載のカテゴリ学習方法。
  3. 前記選定する段階は、
    前記正解カテゴリの最下位階層を除いた残りの階層の各深さ別に、該当の深さの階層まで等しいカテゴリのうちから前記誤答カテゴリをサンプリングする段階
    を含む、請求項1に記載のカテゴリ学習方法。
  4. 前記選定する段階は、
    前記正解カテゴリの最上位階層を除いた残りのカテゴリのうちから前記誤答カテゴリを追加でサンプリングする段階
    をさらに含む、請求項3に記載のカテゴリ学習方法。
  5. 前記構築する段階は、
    前記学習文書と、前記正解カテゴリおよび前記誤答カテゴリをそれぞれベクトル化してベクトル空間にマッピングする段階、および
    前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルと前記誤答カテゴリのベクトルを同時に学習する段階
    を含む、請求項1に記載のカテゴリ学習方法。
  6. 前記学習する段階は、
    前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ近くなるように、前記誤答カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ遠くなるように、学習すること
    を特徴とする、請求項5に記載のカテゴリ学習方法。
  7. 前記カテゴリ学習方法は、
    新たな文書が入力されれば、入力された文書と関連のあるカテゴリを前記学習モデルによって判断することにより、該当の文書のカテゴリを分類する段階
    をさらに含む、請求項1に記載のカテゴリ学習方法。
  8. 前記分類する段階は、
    前記新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは前記新たな文書の正解カテゴリとして自動マーキングすること
    を特徴とする、請求項7に記載のカテゴリ学習方法。
  9. カテゴリ学習方法を実行させるコンピュータプログラムであって、
    前記カテゴリ学習方法は、
    前記カテゴリ学習方法とは、文書のカテゴリとして階層構造を有するカテゴリを学習するものとして、
    各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する段階、および
    前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築する段階
    を含む、コンピュータプログラム。
  10. コンピュータによって実現されるカテゴリ学習システムであって、
    コンピュータが読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    文書のカテゴリとして階層構造を有するカテゴリを学習するためのものとして、
    各学習文書に対し、前記学習文書にマーキングされた正解カテゴリに基づいて前記正解カテゴリと異なる誤答カテゴリを選定する学習データ選定部、および
    前記学習文書に対し、前記正解カテゴリと前記誤答カテゴリを共に学習して文書自動分類のための学習モデルを構築するカテゴリ学習部
    を備える、カテゴリ学習システム。
  11. 前記学習データ選定部は、
    前記正解カテゴリと一部の階層が等しいカテゴリのうちから無作為サンプリングによって前記誤答カテゴリを選定すること
    を特徴とする、請求項10に記載のカテゴリ学習システム。
  12. 前記学習データ選定部は、
    前記正解カテゴリの最下位階層を除いた残りの階層の各深さ別に、該当の深さの階層まで等しいカテゴリのうちから前記誤答カテゴリをサンプリングすること
    を特徴とする、請求項10に記載のカテゴリ学習システム。
  13. 前記学習データ選定部は、
    前記正解カテゴリの最上位階層を除いた残りのカテゴリのうちから前記誤答カテゴリを追加でサンプリングすること
    を特徴とする、請求項12に記載のカテゴリ学習システム。
  14. 前記カテゴリ学習部は、
    前記学習文書と、前記正解カテゴリおよび前記誤答カテゴリをそれぞれベクトル化してベクトル空間にマッピングした後、前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルと前記誤答カテゴリのベクトルを同時に学習すること
    を特徴とする、請求項10に記載のカテゴリ学習システム。
  15. 前記カテゴリ学習部は、
    前記学習文書のベクトルを基準に、前記正解カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ近くなるように、前記誤答カテゴリのベクトルは前記学習文書のベクトルと所定の割合だけ遠くなるように、学習すること
    を特徴とする、請求項14に記載のカテゴリ学習システム。
  16. 前記少なくとも1つのプロセッサは、
    新たな文書が入力されれば、入力された文書と関連のあるカテゴリを前記学習モデルによって判断することにより、該当の文書のカテゴリを分類するカテゴリ分類部
    をさらに備える、請求項10に記載のカテゴリ学習システム。
  17. 前記カテゴリ分類部は、
    前記新たな文書に対し、該当の文書と関連があると判断されたカテゴリを勧めるか、あるいは前記新たな文書の正解カテゴリとして自動マーキングすること
    を特徴とする、請求項16に記載のカテゴリ学習システム。
JP2018169490A 2017-09-12 2018-09-11 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム Active JP6629935B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0116619 2017-09-12
KR1020170116619A KR102060176B1 (ko) 2017-09-12 2017-09-12 문서의 카테고리 분류를 위한 딥러닝 학습 방법 및 그 시스템

Publications (2)

Publication Number Publication Date
JP2019053730A true JP2019053730A (ja) 2019-04-04
JP6629935B2 JP6629935B2 (ja) 2020-01-15

Family

ID=66014976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018169490A Active JP6629935B2 (ja) 2017-09-12 2018-09-11 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム

Country Status (2)

Country Link
JP (1) JP6629935B2 (ja)
KR (1) KR102060176B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732868A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 解答题的答案分析方法、电子设备及存储介质
JP2022537636A (ja) * 2019-05-09 2022-08-29 オートモビリア ツー リミテッド ライアビリティ カンパニー メディア処理および表示のための方法、システム、およびコンピュータ・ プログラム製品

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102215259B1 (ko) * 2019-03-22 2021-02-15 주식회사 커넥트닷 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
US11328125B2 (en) 2019-05-14 2022-05-10 Korea University Research And Business Foundation Method and server for text classification using multi-task learning
KR102095892B1 (ko) * 2019-10-02 2020-04-01 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096086A (ja) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd 文書分類システムおよび方法
JP2017027495A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010102687A (ko) * 2000-05-04 2001-11-16 정만원 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템
JP2004534324A (ja) * 2001-07-04 2004-11-11 コギズム・インターメディア・アーゲー 索引付きの拡張可能な対話的文書検索システム
US20140270347A1 (en) * 2013-03-13 2014-09-18 Sharp Laboratories Of America, Inc. Hierarchical image classification system
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014096086A (ja) * 2012-11-12 2014-05-22 Hitachi Solutions Ltd 文書分類システムおよび方法
JP2017027495A (ja) * 2015-07-27 2017-02-02 Kddi株式会社 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022537636A (ja) * 2019-05-09 2022-08-29 オートモビリア ツー リミテッド ライアビリティ カンパニー メディア処理および表示のための方法、システム、およびコンピュータ・ プログラム製品
CN112732868A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 解答题的答案分析方法、电子设备及存储介质

Also Published As

Publication number Publication date
JP6629935B2 (ja) 2020-01-15
KR102060176B1 (ko) 2019-12-27
KR20190029264A (ko) 2019-03-20

Similar Documents

Publication Publication Date Title
JP6629935B2 (ja) 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム
US20210334624A1 (en) Neural architecture search using a performance prediction neural network
US10289618B2 (en) Third party search applications for a search system
US9852648B2 (en) Extraction of knowledge points and relations from learning materials
KR102327913B1 (ko) 블록 기반 데이터 분석 방법 및 시스템
KR102211650B1 (ko) 인공지능 기반 상품 추천 방법 및 그 시스템
JP2019530075A (ja) 検索コンテキストを利用したクエリ推薦方法およびシステム
US20110191344A1 (en) Automatic organization of browsing histories
JP6769140B2 (ja) 学習素材のセグメントのランク付け
JP6808851B2 (ja) トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
KR20170030379A (ko) 사용자 선호에 맞춘 여행 큐레이션 서비스 방법 및 시스템
JP6696257B2 (ja) ボキャブラリ学習サポートシステム
US20180189307A1 (en) Topic based intelligent electronic file searching
US20180018392A1 (en) Topic identification based on functional summarization
WO2013123675A1 (en) Providing building information modeling data
WO2018186599A1 (ko) 주제별 질의의 서브토픽 자동 추출 및 구조화
US20180365198A1 (en) Method and apparatus for providing web browsing interface
KR101747532B1 (ko) 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
Wybrow et al. Euler diagrams drawn with ellipses area-proportionally (Edeap)
Surjandari et al. Development of theses categorization system search engine using PHP and MySQL
US10924563B2 (en) Method, system and recording medium for providing real-time change in search result
Chen et al. Analysis of higher education and management model based on cognitive anthropology
KR102315068B1 (ko) 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
US11157532B2 (en) Hierarchical target centric pattern generation
EP4270239A1 (en) Supervised machine learning method for matching unsupervised data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191205

R150 Certificate of patent or registration of utility model

Ref document number: 6629935

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250