JP2019519019A - テキストタイプを識別する方法、装置及びデバイス - Google Patents

テキストタイプを識別する方法、装置及びデバイス Download PDF

Info

Publication number
JP2019519019A
JP2019519019A JP2018553944A JP2018553944A JP2019519019A JP 2019519019 A JP2019519019 A JP 2019519019A JP 2018553944 A JP2018553944 A JP 2018553944A JP 2018553944 A JP2018553944 A JP 2018553944A JP 2019519019 A JP2019519019 A JP 2019519019A
Authority
JP
Japan
Prior art keywords
text
probability value
subject
keyword
appearance probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018553944A
Other languages
English (en)
Other versions
JP2019519019A5 (ja
JP6661790B2 (ja
Inventor
愛珍 岳
愛珍 岳
燕 崔
燕 崔
輝 趙
輝 趙
▲シエン▼ 高
▲シエン▼ 高
私江 王
私江 王
静 譚
静 譚
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019519019A publication Critical patent/JP2019519019A/ja
Publication of JP2019519019A5 publication Critical patent/JP2019519019A5/ja
Application granted granted Critical
Publication of JP6661790B2 publication Critical patent/JP6661790B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本出願は、テキストタイプを識別する方法、装置及びデバイスを開示する。上記方法の一つの具体的な実施形態は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するステップ201と、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するステップ202と、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入し、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップ203と、上記テキストにおける、上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別するステップ204を含む。本方法は、テキストタイプに対する識別の正確率を向上させる。
【選択図】図2

Description

本出願は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特にテキストタイプを識別する方法、装置及びデバイスに関する。
本出願は、2016年8月31日に提出した、出願番号が201610798213.2で、発明名称が「テキストタイプを識別する方法、装置及びデバイス」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用することにより本願に組み込む。
テキストタイプを識別することは、テキスト分類とも呼ばれ、予め定義されたタイプに従ってファイルに対して種類を確定する。テキストタイプを識別することは、応用分野が非常に広く、例えば、ウェブページを分類する分野、ユーザからの入力テキストを識別する必要がある検索エンジン分野、ユーザのオリジナル内容を分類する分野に適用可能である。
ところが、従来のテキストタイプを識別する方式、例えばシンプルベイズ方法、支持ベクトル法などは、何れもテキストにおける語句の意味のみに基づいてテキストのタイプを推定する。テキストにおいて語句に一語多義、異行同義が存在可能である場合に、テキストタイプに対する識別の正確率が低くなり、テキストタイプに対する識別の正確率が低い課題がある。
本出願は、改善されたテキストタイプを識別する方法及び装置を提供して、上記の背景技術の部分に言及された技術課題を解決することを目的とする。
第一の局面として、本出願は、テキストタイプを識別する方法を提供する。上記方法は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するステップと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するステップと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別するするステップと、を含む。
第二の局面として、本出願は、テキストタイプを識別する装置を提供する。上記装置は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される前処理モジュールと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される識別モジュールと、を備える。
第三の局面として、本出願は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されているメモリと、を備え、上記一つ又は複数のプログラムが上記一つ又は複数のプロセッサにより実行されると、上記一つ又は複数のプロセッサに上記方法を実現させるデバイスを提供する。
第四の局面として、本出願は、プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、上記コンピュータ読取可能な指令がプロセッサにより実行されると、上記プロセッサが上記方法を実行する不揮発性コンピュータ記憶媒体を提供する。
本出願により提供されるテキストタイプを識別する方法、装置及びデバイスにおいて、まず、テキストのキーワードセットを抽出し、そして、キーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける、上記各主題の出現確率値を取得し、最後に、上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本出願を適用可能な例示的なシステムアーキテクチャ図である。 本出願のテキストタイプを識別する方法による一つの実施例のフローチャートである。 本出願のテキストタイプを識別する方法による一つの応用シーンの模式図である。 本出願のテキストタイプを識別する方法による他の一つの実施例のフローチャートである。 本出願のテキストタイプを識別する装置による一つの実施例の構成模式図である。 本出願の実施例を実現するのに適するサーバのコンピュータシステムの構成模式図である。
以下、図面と実施例を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。
図1は、本出願のテキストタイプを識別する方法又はテキストタイプを識別する装置の実施例を適用可能な例示的なシステムアーキテクチャ100を示する。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末装置101、102、103とサーバ105の間に通信リンクの媒体を提供する。ネットワーク104は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。
ユーザは、メッセージの送受信などをするように、端末装置101、102、103を使用し、ネットワーク104を介してサーバ105とインタラクションを行うことができる。端末装置101、102、103に、例えばオピニオン型アプリ、ウェブブラウザアプリ、買物型アプリ、検索型アプリ、即時通信ツール、メールボックスクライアント、交際型プラットフォームソフトウェアなどのような各種の通信クライアントアプリインストールされてもよい。
端末装置101、102、103は、ディスプレイを有しかつ表情アイコン入力をサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤー、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。
サーバ105は、例えば端末装置101、102、103に表示されたコメントページに対してサポートを提供するバックグラウンドサーバのような、各種のサービスを提供するサーバであっても良い。バックグラウンドサーバは、受信されたテキストなどのデータに対して解析などの処理を行い、処理結果(例えば、テキストの所属するタイプ)を端末装置へフィードバックすることができる。
なお、本出願の実施例により提供されるテキストタイプを識別する方法は、一般的にサーバ105により実行される。それに応じて、テキストタイプを識別する装置は一般的にサーバ105に設置される。
図1における端末装置、ネットワーク及びサーバの数は、模式的なものにすぎないことを理解すべきである。必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有してもよい。
続いて、図2を参照し、図2は、本出願のテキストタイプを識別する方法による一つの実施例のフロー200を示す。テキストタイプを識別する方法は、以下のステップを含む。
ステップ201において、予め取得されたテキストに対して前処理を行って、テキストのキーワードセットを取得する。
本実施例において、テキストタイプを識別する方法が運行される電子デバイス(例えば、図1に示すサーバ)は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されたメモリからテキストを取得しても良い。
本実施例の複数のオプションとなる実施形態において、上記テキストは、ユーザから検索型アプリの検索ボックスに入力される検索テキストであっても良く、ユーザからウェブページ閲覧型アプリのニュースウェブページに投稿されたコメントテキストであっても良く、ユーザから買物型アプリで商品に対して投稿された評価テキストであっても良く、ユーザからオピニオン型アプリで商売者、ネットサイト、サービスなどに対して投稿されたコメントテキストであっても良い。
本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するステップを含んでも良い。ここで、テキストにおける特殊な符号は、句読点、ネットアドレスリンク、数字などであっても良い。ここで、テキストに対して語句分割を行う粒度は基本粒度を選択することができる。テキストに対して如何に語句分割を行うことは、当業者にとって周知であるため、ここでは詳しく説明しない。ここで、ストップワードは、人工で定義され、且つストップワードセットに予め記憶されても良く、例えば、終助詞、接続詞などをストップワードとして定義することができる。
本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記初期キーワードセットを取得し、初期キーワードセットにおける各初期キーワードの単語出現頻度−逆文書頻度(TF−IDF、term frequency-inverse document frequency)を算出し、単語出現頻度−逆文書頻度が所定の閾値よりも大きい初期キーワードを上記テキストのキーワードとして選択してキーワードセットを生成するステップを含んでも良い。
ステップ202において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。
本実施例において、上記電子デバイスは、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出することができる。
本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストの語句数の合計との比であっても良い。
本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストのキーワードセットにおけるキーワード数との比であっても良い。
ステップ203において、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、テキストにおけるファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。
本実施例において、上記電子デバイスは、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。
本実施例において、上記ファイル主題生成モデルは、テキストにおける、語句の出現確率値及び予め得られた各主題における、語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示すためのものである。
当業者にとって理解すべきなのは、ファイル主題生成モデルの原理は、以下の公式で示すことができる。
Figure 2019519019
なお、xは語句、yはi個目の主題、zはファイル、
Figure 2019519019
はファイルにおける語句の出現確率値、
Figure 2019519019
はi個目の主題における語句の出現確率値、
Figure 2019519019
はファイルにおけるi個目の主題の出現確率値、*は乗算、nはファイルに含まれる主題の個数を示す。
例示として、一つのファイルを生成する時に、語句Aを選択する確率は、以下の過程で得ることができる。即ち、生成すべきファイルは、主題甲、主題乙、主題丙である三つの主題に関する可能性があり、この文章を生成しようとする場合にこの三つの主題を選択する確率値は、それぞれP(主題甲|ファイル)=50%、P(主題乙|ファイル)=30%、P(主題丙|ファイル)=20%であり、各主題における語句Aの出現確率値は、それぞれP(語句A|主題甲)=20%、P(語句A|主題乙)=10%、P(語句A|主題丙)=0%であり、当該生成すべきファイルにおいて語句Aの出現確率値は、(語句A|ファイル)=P(主題甲|ファイル)*P(語句A|主題甲)+P(主題乙|ファイル)*P(語句A|主題乙)+P(主題丙|ファイル)*P(語句A|主題丙)=50%*20%+30%*10%+20%*0%=0.13で得ることができる。
任意のファイルについて、
Figure 2019519019
が既知である。ファイル主題生成モデルの構築の過程は、大量のファイルにより訓練して
Figure 2019519019

Figure 2019519019
を推定する。例示として、上記ファイル主題生成モデルの構築の過程は、以下のようになる。即ち、最初に予め収集された大量のファイルをトレーニングセットとして使用し、その後にパープレキシティで主題の個数を確定し、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを生成する。当業者であればわかるように、確率的潜在意味解析法(pLSA、Probabilistic Latent Semantic Analysis)又は線形判別解析法(LDA、Latent Dirichlet Allocation)を利用して、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを構築することができる。
本実施例において、上記テキストの
Figure 2019519019
はステップ203により得られ、各主題における語句の出現確率値
Figure 2019519019
は予め訓練して得られ、
Figure 2019519019

Figure 2019519019
の両者によりテキストにおける各主題の出現確率値
Figure 2019519019
を確定することができる。
ステップ204において、テキストにおける各主題の出現確率値に基いて、テキストの所属するタイプを識別する。
本実施例において、上記電子デバイスは、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別することができる。
本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えば第一種類、第二種類、第三種類のような複数種のタイプであっても良い。
本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えばポジティブタイプとネガティブタイプのような二種類のタイプであっても良い。
本実施例の複数のオプションとなる実施形態において、予め各主題に対してタイプを割当てることができる。なお、主題のタイプはテキストのタイプと一致するように対応する。そして、テキストにおける各主題の出現確率値を大きい順でソートし、その後に出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。
例示として、テキストのタイプが、例えば文芸タイプ、体育タイプ、財政/経済タイプのような複数種のタイプである場合に、予め所定の十個の主題に対して文芸タイプ、体育タイプ、財政/経済タイプとして分類することができる。ステップ203において十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプが体育タイプであれば、体育タイプを上記テキストの上記タイプとして確定し、即ち上記テキストが体育タイプである。
例示として、テキストのタイプが、例えばポジティブタイプとネガティブタイプの二種類のタイプである場合に、予め所定の十個の主題に対してポジティブタイプ又はネガティブタイプとして分類することができる。ステップ203において上記十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプがポジティブタイプであれば、ポジティブタイプを上記テキストの上記タイプとして確定し、即上記テキストがポジティブタイプである。
続いて、図3を参照し、図3は、本実施例のテキストタイプを識別する方法による応用シーンの模式図である。図3の応用シーンにおいて、ユーザは、まずテキストとして「携帯電話が安売り、速めに購入、ネットアドレスxx」を入力し、その後にバックグラウンドサーバは、バックグラウンドで上記テキストを取得し、上記テキストに対して前処理を行ってキーワードセットとして「携帯電話、安売り、購入、ネットアドレス」を得られる。その後に、上記バックグラウンドサーバは、テキストにおける各キーワードの出現確率値を算出する。その後に、上記バックグラウンドサーバは、各キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける各主題の出現確率値を確定することができる。例示として、上記テキストにおいて携帯電話の主題の出現確率値が20%、広告の主題の出現確率値が50%である。最後に、上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。例示として、出現確率値が最も高い主題をテキストのタイプとして選択することができ、「携帯電話が安売り、速めに購入、ネットアドレスxx」について出現確率値が最も高い主題が広告の主題であれば、「広告」を上記テキストの所属するタイプとすることができる。
本出願の上記実施例により提供された方法において、最初にテキストのキーワードセットを抽出し、その後にキーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
続いて、図4を参照し、図4は、テキストタイプを識別する方法の他の実施例のフロー400を示す。当該テキストタイプを識別する方法のフロー400は、以下のステップを含む。
ステップ401において、予め取得されたテキストに対して前処理を行ってテキストのキーワードセットを取得する。
ステップ402において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。
ステップ403において、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける、ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。
上記ステップ401〜ステップ403の処理は、それぞれステップ201〜ステップ203の処理と基本的に同じであるため、ここでは詳しく説明しない。
ステップ404において、テキストにおける各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得する。
本実施例において、上記電子デバイスは、テキストにおける各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得することができる。ここで、テキストのタイプは、ポジティブタイプとネガティブタイプを含むことができる。
本実施例において、上記第一ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示す。
当業者であればわかるように、第一ロジック回帰モデルの基くロジック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第一ロジック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。
本出願において、ロジック回帰モデルをソーティングアルゴリズムとして選択することにより、ロジック回帰アルゴリズムを利用してテキストにおける各主題の出現確率値を全面的に解析可能し、且つ演算が簡単でスピードが速く、ステップ403でファイル主題生成モデルにより得られたテキストにおける各主題の出現確率値と組合わせて上記テキストの所属するタイプを識別することができる。ファイル主題生成モデルと第一ロジック回帰モデルとの組み合わせは、テキストに対して二分類を行う場合に、分類の正確率を向上すると共に、分類の効率を向上することができる。
本実施例の複数のオプションとなる実施形態において、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定する。
本実施例の複数のオプションとなる実施形態において、上記第一ロジック回帰モデルにおいて予め各主題に対応する第一回帰パラメータ値を設置する。なお、各第一回帰パラメータ値は、各主題が上記ポジティブタイプに属する確率を示す。まず、上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数としてロジック関するの目的変数をテキストがポジティブタイプに属する第一確率値として得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。
本実施例の複数のオプションとなる実施形態において、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別することができる。例示として、上記第一確率値が所定の閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定し、上記第一確率値が所定の閾値よりも小さいことに応答して、上記テキストがネガティブタイプに属すると確定することができる。
ステップ405において、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第二確率値を取得する。
本実施例において、上記電子デバイスは、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、上記テキストがポジティブタイプに属する第二確率値を取得することができる。
本実施例において、上記第二ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と、上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示す。そして、上記第二ロジック回帰モデルの回帰パラメータは、上記第一ロジック回帰モデルの回帰パラメータと異なる。なお、回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示す。
本実施例において、二つの異なるロジック回帰モデルを利用し、二重判断システムを設置することにより、テキストタイプに対する識別の正確率を向上することができる。
当業者であればわかるように、第二ロジック回帰モデルの基づくロジック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第二ロジック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。
本実施例の複数のオプションとなる実施形態において、上記第二ロジック回帰モデルにおいて予め各主題に対応する第二回帰パラメータ値を設置する。なお、各第二回帰パラメータ値は各主題が上記ポジティブタイプに属する確率を示す。
本実施例の複数のオプションとなる実施形態において、まず上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数として、テキストがポジティブタイプに属する第二確率値としてロジック関数の目的変数を得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。
ステップ406において、第二確率値が所定の第二閾値よりも大きいことに応答して、テキストがポジティブタイプに属すると確定する。
本実施例において、上記電子デバイスは、ステップ405で確定された第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定することができる。
本実施例の複数のオプションとなる実施形態において、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定する。
図4からわかるように、図2における対応の実施例と比べて、本実施例におけるテキストタイプを識別する方法のフロー400は、二重ロジック回帰モデルを使用してテキストにおける各主題の出現確率値を操作するステップを強調することにより、全体としてテキストタイプに対する識別の正確率と効率を向上させることができる。
続いて、図5を参照し、各図に示された方法の実現として、本出願はテキストタイプを識別する装置の一つの実施例を提供する。当該装置の実施例は、図2に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。
図5に示されたように、本実施例における上記テキストタイプを識別する装置500は、前処理モジュール501と、算出モジュール502と、確定モジュール503と、識別モジュール504とを備える。なお、前処理モジュール501は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される。算出モジュール502は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される。確定モジュール503は、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するように配置される。なお、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示す。識別モジュール504は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される。
本実施例において、テキストタイプを識別する装置500の前処理モジュール501は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されているメモリからテキストを取得しても良い。
本実施例において、算出モジュール502は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出する。
本実施例において、確定モジュール503は、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。
本実施例において、識別モジュール504は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。
本実施例の複数のオプションとなる実施形態において、上記タイプはポジティブタイプとネガティブタイプを含む。そして、上記識別モジュール504は、テキストにおける上記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、上記第一ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニット5041と、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別するように配置される識別ユニット5042とを備える。
本実施例の複数のオプションとなる実施形態において、上記識別ユニットは、更に、上記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける上記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第二確率値を取得し、上記第二ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ上記第二ロジック回帰モデルの回帰パラメータは上記第一ロジック回帰モデルの回帰パラメータと異なり、上記回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示すためのものであり、上記第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。
本実施例の複数のオプションとなる実施形態において、上記識別モジュールは、更に、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。
本実施例の複数のオプションとなる実施形態において、識別ユニットは、更に、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定するように配置される。
本実施例の複数のオプションとなる実施形態において、上記前処理モジュールは、更に、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するように配置される。
本出願の上記実施例により提供された装置は、まず前処理モジュール501によりテキストのキーワードセットを抽出し、その後に算出モジュール502によりキーワードセットにおける各キーワードの出現確率値を算出し、その後に確定モジュール503により予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に識別モジュール504により上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
以下、図6を参照し、図6は、本出願の実施例を実現するためのサーバに適用するコンピュータシステム600の構成模式図を示す。
図6に示されたように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ610に取り付けられて、ドライブ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例は機器読取可能な媒体に形状的に含まれるコンピュータプログラムを含むコンピュータプログラム製品を備える。上記コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア611からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)601により実行される場合に、本願の方法に限定される上記機能を実行する。
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。上記モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
本願の実施例に説明されたユニットは、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、前処理モジュールと、算出モジュールと、確定モジュールと、識別モジュールとを備えるプロセッサとして記載されても良い。なお、これらのユニットの名称は、場合によって当該ユニットの自身に対する限定とされない。例えば、前処理モジュールは、「予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するモジュール」として記載されても良い。
他の局面として、本出願は更に不揮発性コンピュータ記憶媒体 を提供した。当該不揮発性コンピュータ記憶媒体は、上記実施例に説明された装置に含まれたものであっても良く、端末に実装されずに別途に存在するものであっても良い。上記不揮発性コンピュータ記憶媒体に一つ又は複数のプログラムが記憶され、上記一つ又は複数のプログラムが一つのデバイスにより実行されると、上記デバイスに、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得し、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出し、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定し、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別することを実行させる。
以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。

Claims (14)

  1. テキストタイプを識別する方法であって、
    予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップと、
    前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するステップと、
    前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、
    前記テキストにおける前記各主題の出現確率値に基いて、前記テキストの所属するタイプを識別するするステップと、
    を含むことを特徴とする方法。
  2. 前記タイプは、ポジティブタイプとネガティブタイプとを含み、
    前記各主題のそれぞれのテキストにおける出現確率値に基いて、前記テキストの所属するタイプを識別するステップは、
    テキストにおける前記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得するステップであって、前記第一ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、ステップと、
    前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、
    前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得するステップであって、前記第二ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジック回帰モデルの回帰パラメータは前記第一ロジック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものである、ステップと、
    前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップと、
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
    前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップを含むことを特徴とする請求項2に記載の方法。
  5. 前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
    前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するステップを含むことを特徴とする請求項3に記載の方法。
  6. 予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップは、
    前記テキストにおける特殊な符号を除去するステップと、
    特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得するステップと、
    前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得するステップと、
    を含むことを特徴とする請求項1〜5の何れか一つに記載の方法。
  7. テキストタイプを識別する装置であって、
    予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するように配置される前処理モジュールと、
    前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、
    前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、
    前記テキストにおける前記各主題の出現確率値に基づいて、前記テキストの所属するタイプを識別するように配置される識別モジュールと、
    を備えることを特徴とする装置。
  8. 前記タイプは、ポジティブタイプとネガティブタイプを含み、
    前記識別モジュールは、
    テキストにおける前記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、前記第一ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニットと、
    前記第一確率値に基づいて、前記テキストが前記ポジティブタイプに属するか否かを識別するように配置される識別ユニットと、
    を備えることを特徴とする請求項7に記載の装置。
  9. 前記識別ユニットは、更に、
    前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得し、前記第二ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジック回帰モデルの回帰パラメータは前記第一ロジック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものであり、
    前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定する、
    ように配置されることを特徴とする請求項8に記載の装置。
  10. 前記識別モジュールは、更に、
    前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するように配置されることを特徴とする請求項8に記載の装置。
  11. 前記識別ユニットは、更に、
    前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するように配置されることを特徴とする請求項9に記載の装置。
  12. 前記前処理モジュールは、更に、
    前記テキストにおける特殊な符号を除去し、
    特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、
    前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得する、
    ように配置されることを特徴とする請求項7〜11の何れか一つに記載の装置。
  13. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムが記憶されているメモリと、を備え、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜6の何れか一つに記載の方法を実現させることを特徴とするデバイス。
  14. プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、前記コンピュータ読取可能な指令がプロセッサにより実行されると、前記プロセッサが請求項1〜6の何れか一つに記載の方法を実行することを特徴とする不揮発性コンピュータ記憶媒体。
JP2018553944A 2016-08-31 2016-12-02 テキストタイプを識別する方法、装置及びデバイス Active JP6661790B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610798213.2A CN107797982B (zh) 2016-08-31 2016-08-31 用于识别文本类型的方法、装置和设备
CN201610798213.2 2016-08-31
PCT/CN2016/108421 WO2018040343A1 (zh) 2016-08-31 2016-12-02 用于识别文本类型的方法、装置和设备

Publications (3)

Publication Number Publication Date
JP2019519019A true JP2019519019A (ja) 2019-07-04
JP2019519019A5 JP2019519019A5 (ja) 2020-02-20
JP6661790B2 JP6661790B2 (ja) 2020-03-11

Family

ID=61299880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018553944A Active JP6661790B2 (ja) 2016-08-31 2016-12-02 テキストタイプを識別する方法、装置及びデバイス

Country Status (4)

Country Link
US (1) US11281860B2 (ja)
JP (1) JP6661790B2 (ja)
CN (1) CN107797982B (ja)
WO (1) WO2018040343A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130597A1 (ja) * 2020-12-18 2022-06-23 国立大学法人東北大学 推定装置、推定方法、推定プログラム、生成装置、及び、推定システム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717519B (zh) * 2018-04-03 2021-02-19 北京捷通华声科技股份有限公司 一种文本分类方法及装置
US20210232870A1 (en) * 2018-04-27 2021-07-29 Aipore Inc. PU Classification Device, PU Classification Method, and Recording Medium
US11113466B1 (en) * 2019-02-28 2021-09-07 Intuit, Inc. Generating sentiment analysis of content
CN110728138A (zh) * 2019-09-25 2020-01-24 杜泽壮 新闻文本识别的方法、装置以及存储介质
CN110717327B (zh) * 2019-09-29 2023-12-29 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质
CN111274798B (zh) * 2020-01-06 2023-08-18 北京大米科技有限公司 一种文本主题词确定方法、装置、存储介质及终端
CN111414735B (zh) * 2020-03-11 2024-03-22 北京明略软件系统有限公司 文本数据的生成方法和装置
CN113449511B (zh) * 2020-03-24 2023-06-09 百度在线网络技术(北京)有限公司 文本处理的方法、装置、设备和存储介质
CN113191147A (zh) * 2021-05-27 2021-07-30 中国人民解放军军事科学院评估论证研究中心 无监督的自动术语抽取方法、装置、设备和介质
CN113836261A (zh) * 2021-08-27 2021-12-24 哈尔滨工业大学 一种专利文本新颖性/创造性预测方法及装置
US20230134796A1 (en) * 2021-10-29 2023-05-04 Glipped, Inc. Named entity recognition system for sentiment labeling

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7203909B1 (en) * 2002-04-04 2007-04-10 Microsoft Corporation System and methods for constructing personalized context-sensitive portal pages or views by analyzing patterns of users' information access activities
US7739286B2 (en) * 2005-03-17 2010-06-15 University Of Southern California Topic specific language models built from large numbers of documents
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
CN100533441C (zh) * 2006-04-19 2009-08-26 中国科学院自动化研究所 基于概率主题词的两级组合文本分类方法
JP5343861B2 (ja) * 2007-12-27 2013-11-13 日本電気株式会社 テキスト分割装置とテキスト分割方法およびプログラム
US20140108376A1 (en) * 2008-11-26 2014-04-17 Google Inc. Enhanced detection of like resources
WO2010150464A1 (ja) * 2009-06-26 2010-12-29 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
JP2011175362A (ja) * 2010-02-23 2011-09-08 Sony Corp 情報処理装置、重要度算出方法及びプログラム
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP5691289B2 (ja) * 2010-08-11 2015-04-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US8892550B2 (en) * 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US20130273976A1 (en) * 2010-10-27 2013-10-17 Nokia Corporation Method and Apparatus for Identifying a Conversation in Multiple Strings
US8484228B2 (en) * 2011-03-17 2013-07-09 Indian Institute Of Science Extraction and grouping of feature words
US8892555B2 (en) * 2011-03-31 2014-11-18 Samsung Electronics Co., Ltd. Apparatus and method for generating story according to user information
CA2779034C (en) * 2011-06-08 2022-03-01 Accenture Global Services Limited High-risk procurement analytics and scoring system
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
US9355170B2 (en) * 2012-11-27 2016-05-31 Hewlett Packard Enterprise Development Lp Causal topic miner
US9378295B1 (en) * 2012-12-26 2016-06-28 Google Inc. Clustering content based on anticipated content trend topics
US10685181B2 (en) * 2013-03-06 2020-06-16 Northwestern University Linguistic expression of preferences in social media for prediction and recommendation
US10204026B2 (en) * 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10599697B2 (en) * 2013-03-15 2020-03-24 Uda, Llc Automatic topic discovery in streams of unstructured data
US20190129941A2 (en) * 2013-05-21 2019-05-02 Happify, Inc. Systems and methods for dynamic user interaction for improving happiness
CN103473309B (zh) * 2013-09-10 2017-01-25 浙江大学 一种基于概率单词选择和监督主题模型的文本分类方法
US9928526B2 (en) * 2013-12-26 2018-03-27 Oracle America, Inc. Methods and systems that predict future actions from instrumentation-generated events
CN104834640A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 网页的识别方法及装置
CN104915356B (zh) * 2014-03-13 2018-12-07 中国移动通信集团上海有限公司 一种文本分类校正方法及装置
US20150286710A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextualized sentiment text analysis vocabulary generation
US20150317303A1 (en) * 2014-04-30 2015-11-05 Linkedin Corporation Topic mining using natural language processing techniques
US10373067B1 (en) * 2014-08-13 2019-08-06 Intuit, Inc. Domain-specific sentiment keyword extraction with weighted labels
US9690772B2 (en) * 2014-12-15 2017-06-27 Xerox Corporation Category and term polarity mutual annotation for aspect-based sentiment analysis
US9881255B1 (en) * 2014-12-17 2018-01-30 Amazon Technologies, Inc. Model based selection of network resources for which to accelerate delivery
US9817904B2 (en) * 2014-12-19 2017-11-14 TCL Research America Inc. Method and system for generating augmented product specifications
JP2016126575A (ja) * 2015-01-05 2016-07-11 富士通株式会社 データ関連度算出プログラム、装置、および方法
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
US10025773B2 (en) * 2015-07-24 2018-07-17 International Business Machines Corporation System and method for natural language processing using synthetic text
CN105187408A (zh) * 2015-08-17 2015-12-23 北京神州绿盟信息安全科技股份有限公司 网络攻击检测方法和设备
US10482119B2 (en) * 2015-09-14 2019-11-19 Conduent Business Services, Llc System and method for classification of microblog posts based on identification of topics
US20170075978A1 (en) * 2015-09-16 2017-03-16 Linkedin Corporation Model-based identification of relevant content
CN105354184B (zh) * 2015-10-28 2018-04-20 甘肃智呈网络科技有限公司 一种使用优化的向量空间模型实现文档自动分类的方法
US10606705B1 (en) * 2015-11-30 2020-03-31 Veritas Technologies Llc Prioritizing backup operations using heuristic techniques
US10289624B2 (en) * 2016-03-09 2019-05-14 Adobe Inc. Topic and term search analytics
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
US10275444B2 (en) * 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US11416680B2 (en) * 2016-08-18 2022-08-16 Sap Se Classifying social media inputs via parts-of-speech filtering

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022130597A1 (ja) * 2020-12-18 2022-06-23 国立大学法人東北大学 推定装置、推定方法、推定プログラム、生成装置、及び、推定システム

Also Published As

Publication number Publication date
US20190050396A1 (en) 2019-02-14
JP6661790B2 (ja) 2020-03-11
US11281860B2 (en) 2022-03-22
WO2018040343A1 (zh) 2018-03-08
CN107797982B (zh) 2021-05-07
CN107797982A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
JP6661790B2 (ja) テキストタイプを識別する方法、装置及びデバイス
JP6511487B2 (ja) 情報プッシュ用の方法及び装置
JP2019519019A5 (ja)
US10747771B2 (en) Method and apparatus for determining hot event
US9720904B2 (en) Generating training data for disambiguation
CN110162620B (zh) 黑产广告的检测方法、装置、服务器及存储介质
US20130263019A1 (en) Analyzing social media
WO2017000402A1 (zh) 网页生成方法和装置
CN107526718B (zh) 用于生成文本的方法和装置
CN104573054A (zh) 一种信息推送方法和设备
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN103577452A (zh) 用于丰富网站内容的方法和装置、网站服务器
Syed Applying sentiment and emotion analysis on brand tweets for digital marketing
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN111198967A (zh) 基于关系图谱的用户分组方法、装置及电子设备
CN106919997B (zh) 一种基于lda的电子商务的用户消费预测方法
CN106663123B (zh) 以评论为中心的新闻阅读器
US20200057821A1 (en) Generating a platform-based representative image for a digital video
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
Kucher et al. Analysis of VINCI 2009-2017 proceedings
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN116308704A (zh) 产品推荐方法、装置、电子设备、介质和计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191008

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20200107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200212

R150 Certificate of patent or registration of utility model

Ref document number: 6661790

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250