JP2019519019A

JP2019519019A - テキストタイプを識別する方法、装置及びデバイス

Info

Publication number: JP2019519019A
Application number: JP2018553944A
Authority: JP
Inventors: 愛珍岳; 燕崔; 輝趙; ▲シエン▼ 高; 私江王; 静譚
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2016-08-31
Filing date: 2016-12-02
Publication date: 2019-07-04
Anticipated expiration: 2036-12-02
Also published as: US20190050396A1; JP6661790B2; US11281860B2; WO2018040343A1; CN107797982B; CN107797982A

Abstract

本出願は、テキストタイプを識別する方法、装置及びデバイスを開示する。上記方法の一つの具体的な実施形態は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するステップ２０１と、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するステップ２０２と、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入し、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップ２０３と、上記テキストにおける、上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別するステップ２０４を含む。本方法は、テキストタイプに対する識別の正確率を向上させる。
【選択図】図２

Description

本出願は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特にテキストタイプを識別する方法、装置及びデバイスに関する。

本出願は、２０１６年８月３１日に提出した、出願番号が２０１６１０７９８２１３．２で、発明名称が「テキストタイプを識別する方法、装置及びデバイス」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用することにより本願に組み込む。

テキストタイプを識別することは、テキスト分類とも呼ばれ、予め定義されたタイプに従ってファイルに対して種類を確定する。テキストタイプを識別することは、応用分野が非常に広く、例えば、ウェブページを分類する分野、ユーザからの入力テキストを識別する必要がある検索エンジン分野、ユーザのオリジナル内容を分類する分野に適用可能である。

ところが、従来のテキストタイプを識別する方式、例えばシンプルベイズ方法、支持ベクトル法などは、何れもテキストにおける語句の意味のみに基づいてテキストのタイプを推定する。テキストにおいて語句に一語多義、異行同義が存在可能である場合に、テキストタイプに対する識別の正確率が低くなり、テキストタイプに対する識別の正確率が低い課題がある。

本出願は、改善されたテキストタイプを識別する方法及び装置を提供して、上記の背景技術の部分に言及された技術課題を解決することを目的とする。

第一の局面として、本出願は、テキストタイプを識別する方法を提供する。上記方法は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するステップと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するステップと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別するするステップと、を含む。

第二の局面として、本出願は、テキストタイプを識別する装置を提供する。上記装置は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される前処理モジュールと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される識別モジュールと、を備える。

第三の局面として、本出願は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されているメモリと、を備え、上記一つ又は複数のプログラムが上記一つ又は複数のプロセッサにより実行されると、上記一つ又は複数のプロセッサに上記方法を実現させるデバイスを提供する。

第四の局面として、本出願は、プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、上記コンピュータ読取可能な指令がプロセッサにより実行されると、上記プロセッサが上記方法を実行する不揮発性コンピュータ記憶媒体を提供する。

本出願により提供されるテキストタイプを識別する方法、装置及びデバイスにおいて、まず、テキストのキーワードセットを抽出し、そして、キーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける、上記各主題の出現確率値を取得し、最後に、上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。

以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本出願を適用可能な例示的なシステムアーキテクチャ図である。本出願のテキストタイプを識別する方法による一つの実施例のフローチャートである。本出願のテキストタイプを識別する方法による一つの応用シーンの模式図である。本出願のテキストタイプを識別する方法による他の一つの実施例のフローチャートである。本出願のテキストタイプを識別する装置による一つの実施例の構成模式図である。本出願の実施例を実現するのに適するサーバのコンピュータシステムの構成模式図である。

以下、図面と実施例を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。

なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。

図１は、本出願のテキストタイプを識別する方法又はテキストタイプを識別する装置の実施例を適用可能な例示的なシステムアーキテクチャ１００を示する。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを備えても良い。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５の間に通信リンクの媒体を提供する。ネットワーク１０４は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。

ユーザは、メッセージの送受信などをするように、端末装置１０１、１０２、１０３を使用し、ネットワーク１０４を介してサーバ１０５とインタラクションを行うことができる。端末装置１０１、１０２、１０３に、例えばオピニオン型アプリ、ウェブブラウザアプリ、買物型アプリ、検索型アプリ、即時通信ツール、メールボックスクライアント、交際型プラットフォームソフトウェアなどのような各種の通信クライアントアプリインストールされてもよい。

端末装置１０１、１０２、１０３は、ディスプレイを有しかつ表情アイコン入力をサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、ＭＰ３(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ)プレーヤー、ＭＰ４(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ）プレーヤー、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。

サーバ１０５は、例えば端末装置１０１、１０２、１０３に表示されたコメントページに対してサポートを提供するバックグラウンドサーバのような、各種のサービスを提供するサーバであっても良い。バックグラウンドサーバは、受信されたテキストなどのデータに対して解析などの処理を行い、処理結果（例えば、テキストの所属するタイプ）を端末装置へフィードバックすることができる。

なお、本出願の実施例により提供されるテキストタイプを識別する方法は、一般的にサーバ１０５により実行される。それに応じて、テキストタイプを識別する装置は一般的にサーバ１０５に設置される。

図１における端末装置、ネットワーク及びサーバの数は、模式的なものにすぎないことを理解すべきである。必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有してもよい。

続いて、図２を参照し、図２は、本出願のテキストタイプを識別する方法による一つの実施例のフロー２００を示す。テキストタイプを識別する方法は、以下のステップを含む。

ステップ２０１において、予め取得されたテキストに対して前処理を行って、テキストのキーワードセットを取得する。

本実施例において、テキストタイプを識別する方法が運行される電子デバイス（例えば、図１に示すサーバ）は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されたメモリからテキストを取得しても良い。

本実施例の複数のオプションとなる実施形態において、上記テキストは、ユーザから検索型アプリの検索ボックスに入力される検索テキストであっても良く、ユーザからウェブページ閲覧型アプリのニュースウェブページに投稿されたコメントテキストであっても良く、ユーザから買物型アプリで商品に対して投稿された評価テキストであっても良く、ユーザからオピニオン型アプリで商売者、ネットサイト、サービスなどに対して投稿されたコメントテキストであっても良い。

本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するステップを含んでも良い。ここで、テキストにおける特殊な符号は、句読点、ネットアドレスリンク、数字などであっても良い。ここで、テキストに対して語句分割を行う粒度は基本粒度を選択することができる。テキストに対して如何に語句分割を行うことは、当業者にとって周知であるため、ここでは詳しく説明しない。ここで、ストップワードは、人工で定義され、且つストップワードセットに予め記憶されても良く、例えば、終助詞、接続詞などをストップワードとして定義することができる。

本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記初期キーワードセットを取得し、初期キーワードセットにおける各初期キーワードの単語出現頻度−逆文書頻度（ＴＦ−ＩＤＦ、ｔｅｒｍｆｒｅｑｕｅｎｃｙ-ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）を算出し、単語出現頻度−逆文書頻度が所定の閾値よりも大きい初期キーワードを上記テキストのキーワードとして選択してキーワードセットを生成するステップを含んでも良い。

ステップ２０２において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。

本実施例において、上記電子デバイスは、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出することができる。

本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストの語句数の合計との比であっても良い。

本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストのキーワードセットにおけるキーワード数との比であっても良い。

ステップ２０３において、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、テキストにおけるファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。

本実施例において、上記電子デバイスは、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。

本実施例において、上記ファイル主題生成モデルは、テキストにおける、語句の出現確率値及び予め得られた各主題における、語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示すためのものである。

当業者にとって理解すべきなのは、ファイル主題生成モデルの原理は、以下の公式で示すことができる。

なお、ｘは語句、ｙ_ｉはｉ個目の主題、ｚはファイル、

はファイルにおける語句の出現確率値、

はｉ個目の主題における語句の出現確率値、

はファイルにおけるｉ個目の主題の出現確率値、＊は乗算、ｎはファイルに含まれる主題の個数を示す。

例示として、一つのファイルを生成する時に、語句Ａを選択する確率は、以下の過程で得ることができる。即ち、生成すべきファイルは、主題甲、主題乙、主題丙である三つの主題に関する可能性があり、この文章を生成しようとする場合にこの三つの主題を選択する確率値は、それぞれＰ（主題甲｜ファイル）＝５０％、Ｐ（主題乙｜ファイル）＝３０％、Ｐ（主題丙｜ファイル）＝２０％であり、各主題における語句Ａの出現確率値は、それぞれＰ（語句Ａ｜主題甲）＝２０％、Ｐ（語句Ａ｜主題乙）＝１０％、Ｐ（語句Ａ｜主題丙）＝０％であり、当該生成すべきファイルにおいて語句Ａの出現確率値は、（語句Ａ｜ファイル）＝Ｐ（主題甲｜ファイル）＊Ｐ（語句Ａ｜主題甲）＋Ｐ（主題乙｜ファイル）＊Ｐ（語句Ａ｜主題乙）＋Ｐ（主題丙｜ファイル）＊Ｐ（語句Ａ｜主題丙）＝５０％＊２０％＋３０％＊１０％＋２０％＊０％＝０．１３で得ることができる。

任意のファイルについて、

が既知である。ファイル主題生成モデルの構築の過程は、大量のファイルにより訓練して

と

を推定する。例示として、上記ファイル主題生成モデルの構築の過程は、以下のようになる。即ち、最初に予め収集された大量のファイルをトレーニングセットとして使用し、その後にパープレキシティで主題の個数を確定し、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを生成する。当業者であればわかるように、確率的潜在意味解析法（ｐＬＳＡ、ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）又は線形判別解析法（ＬＤＡ、ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）を利用して、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを構築することができる。

本実施例において、上記テキストの

はステップ２０３により得られ、各主題における語句の出現確率値

は予め訓練して得られ、

と

の両者によりテキストにおける各主題の出現確率値

を確定することができる。

ステップ２０４において、テキストにおける各主題の出現確率値に基いて、テキストの所属するタイプを識別する。

本実施例において、上記電子デバイスは、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別することができる。

本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えば第一種類、第二種類、第三種類のような複数種のタイプであっても良い。

本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えばポジティブタイプとネガティブタイプのような二種類のタイプであっても良い。

本実施例の複数のオプションとなる実施形態において、予め各主題に対してタイプを割当てることができる。なお、主題のタイプはテキストのタイプと一致するように対応する。そして、テキストにおける各主題の出現確率値を大きい順でソートし、その後に出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。

例示として、テキストのタイプが、例えば文芸タイプ、体育タイプ、財政／経済タイプのような複数種のタイプである場合に、予め所定の十個の主題に対して文芸タイプ、体育タイプ、財政／経済タイプとして分類することができる。ステップ２０３において十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプが体育タイプであれば、体育タイプを上記テキストの上記タイプとして確定し、即ち上記テキストが体育タイプである。

例示として、テキストのタイプが、例えばポジティブタイプとネガティブタイプの二種類のタイプである場合に、予め所定の十個の主題に対してポジティブタイプ又はネガティブタイプとして分類することができる。ステップ２０３において上記十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプがポジティブタイプであれば、ポジティブタイプを上記テキストの上記タイプとして確定し、即上記テキストがポジティブタイプである。

続いて、図３を参照し、図３は、本実施例のテキストタイプを識別する方法による応用シーンの模式図である。図３の応用シーンにおいて、ユーザは、まずテキストとして「携帯電話が安売り、速めに購入、ネットアドレスｘｘ」を入力し、その後にバックグラウンドサーバは、バックグラウンドで上記テキストを取得し、上記テキストに対して前処理を行ってキーワードセットとして「携帯電話、安売り、購入、ネットアドレス」を得られる。その後に、上記バックグラウンドサーバは、テキストにおける各キーワードの出現確率値を算出する。その後に、上記バックグラウンドサーバは、各キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける各主題の出現確率値を確定することができる。例示として、上記テキストにおいて携帯電話の主題の出現確率値が２０％、広告の主題の出現確率値が５０％である。最後に、上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。例示として、出現確率値が最も高い主題をテキストのタイプとして選択することができ、「携帯電話が安売り、速めに購入、ネットアドレスｘｘ」について出現確率値が最も高い主題が広告の主題であれば、「広告」を上記テキストの所属するタイプとすることができる。

本出願の上記実施例により提供された方法において、最初にテキストのキーワードセットを抽出し、その後にキーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。

続いて、図４を参照し、図４は、テキストタイプを識別する方法の他の実施例のフロー４００を示す。当該テキストタイプを識別する方法のフロー４００は、以下のステップを含む。

ステップ４０１において、予め取得されたテキストに対して前処理を行ってテキストのキーワードセットを取得する。

ステップ４０２において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。

ステップ４０３において、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける、ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。

上記ステップ４０１〜ステップ４０３の処理は、それぞれステップ２０１〜ステップ２０３の処理と基本的に同じであるため、ここでは詳しく説明しない。

ステップ４０４において、テキストにおける各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得する。

本実施例において、上記電子デバイスは、テキストにおける各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得することができる。ここで、テキストのタイプは、ポジティブタイプとネガティブタイプを含むことができる。

本実施例において、上記第一ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示す。

当業者であればわかるように、第一ロジック回帰モデルの基くロジック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第一ロジック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。

本出願において、ロジック回帰モデルをソーティングアルゴリズムとして選択することにより、ロジック回帰アルゴリズムを利用してテキストにおける各主題の出現確率値を全面的に解析可能し、且つ演算が簡単でスピードが速く、ステップ４０３でファイル主題生成モデルにより得られたテキストにおける各主題の出現確率値と組合わせて上記テキストの所属するタイプを識別することができる。ファイル主題生成モデルと第一ロジック回帰モデルとの組み合わせは、テキストに対して二分類を行う場合に、分類の正確率を向上すると共に、分類の効率を向上することができる。

本実施例の複数のオプションとなる実施形態において、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定する。

本実施例の複数のオプションとなる実施形態において、上記第一ロジック回帰モデルにおいて予め各主題に対応する第一回帰パラメータ値を設置する。なお、各第一回帰パラメータ値は、各主題が上記ポジティブタイプに属する確率を示す。まず、上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数としてロジック関するの目的変数をテキストがポジティブタイプに属する第一確率値として得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。

本実施例の複数のオプションとなる実施形態において、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別することができる。例示として、上記第一確率値が所定の閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定し、上記第一確率値が所定の閾値よりも小さいことに応答して、上記テキストがネガティブタイプに属すると確定することができる。

ステップ４０５において、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、テキストがポジティブタイプに属する第二確率値を取得する。

本実施例において、上記電子デバイスは、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、上記テキストがポジティブタイプに属する第二確率値を取得することができる。

本実施例において、上記第二ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と、上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示す。そして、上記第二ロジック回帰モデルの回帰パラメータは、上記第一ロジック回帰モデルの回帰パラメータと異なる。なお、回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示す。

本実施例において、二つの異なるロジック回帰モデルを利用し、二重判断システムを設置することにより、テキストタイプに対する識別の正確率を向上することができる。

当業者であればわかるように、第二ロジック回帰モデルの基づくロジック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第二ロジック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。

本実施例の複数のオプションとなる実施形態において、上記第二ロジック回帰モデルにおいて予め各主題に対応する第二回帰パラメータ値を設置する。なお、各第二回帰パラメータ値は各主題が上記ポジティブタイプに属する確率を示す。

本実施例の複数のオプションとなる実施形態において、まず上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数として、テキストがポジティブタイプに属する第二確率値としてロジック関数の目的変数を得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。

ステップ４０６において、第二確率値が所定の第二閾値よりも大きいことに応答して、テキストがポジティブタイプに属すると確定する。

本実施例において、上記電子デバイスは、ステップ４０５で確定された第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定することができる。

本実施例の複数のオプションとなる実施形態において、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定する。

図４からわかるように、図２における対応の実施例と比べて、本実施例におけるテキストタイプを識別する方法のフロー４００は、二重ロジック回帰モデルを使用してテキストにおける各主題の出現確率値を操作するステップを強調することにより、全体としてテキストタイプに対する識別の正確率と効率を向上させることができる。

続いて、図５を参照し、各図に示された方法の実現として、本出願はテキストタイプを識別する装置の一つの実施例を提供する。当該装置の実施例は、図２に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。

図５に示されたように、本実施例における上記テキストタイプを識別する装置５００は、前処理モジュール５０１と、算出モジュール５０２と、確定モジュール５０３と、識別モジュール５０４とを備える。なお、前処理モジュール５０１は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される。算出モジュール５０２は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される。確定モジュール５０３は、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するように配置される。なお、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示す。識別モジュール５０４は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される。

本実施例において、テキストタイプを識別する装置５００の前処理モジュール５０１は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されているメモリからテキストを取得しても良い。

本実施例において、算出モジュール５０２は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出する。

本実施例において、確定モジュール５０３は、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。

本実施例において、識別モジュール５０４は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。

本実施例の複数のオプションとなる実施形態において、上記タイプはポジティブタイプとネガティブタイプを含む。そして、上記識別モジュール５０４は、テキストにおける上記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、上記第一ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニット５０４１と、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別するように配置される識別ユニット５０４２とを備える。

本実施例の複数のオプションとなる実施形態において、上記識別ユニットは、更に、上記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける上記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第二確率値を取得し、上記第二ロジック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ上記第二ロジック回帰モデルの回帰パラメータは上記第一ロジック回帰モデルの回帰パラメータと異なり、上記回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示すためのものであり、上記第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。

本実施例の複数のオプションとなる実施形態において、上記識別モジュールは、更に、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。

本実施例の複数のオプションとなる実施形態において、識別ユニットは、更に、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定するように配置される。

本実施例の複数のオプションとなる実施形態において、上記前処理モジュールは、更に、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するように配置される。

本出願の上記実施例により提供された装置は、まず前処理モジュール５０１によりテキストのキーワードセットを抽出し、その後に算出モジュール５０２によりキーワードセットにおける各キーワードの出現確率値を算出し、その後に確定モジュール５０３により予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に識別モジュール５０４により上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。

以下、図６を参照し、図６は、本出願の実施例を実現するためのサーバに適用するコンピュータシステム６００の構成模式図を示す。

図６に示されたように、コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ）６０１を備える。ＲＡＭ６０３には、システム６００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部６０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、およびスピーカなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、およびＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部６０９は、Ｉ／Ｏインターフェース６０５に接続されている。通信部６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブルメディア６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ６１０に取り付けられて、ドライブ６１０から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例は機器読取可能な媒体に形状的に含まれるコンピュータプログラムを含むコンピュータプログラム製品を備える。上記コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブルメディア６１１からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）６０１により実行される場合に、本願の方法に限定される上記機能を実行する。

図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。上記モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。

本願の実施例に説明されたユニットは、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、前処理モジュールと、算出モジュールと、確定モジュールと、識別モジュールとを備えるプロセッサとして記載されても良い。なお、これらのユニットの名称は、場合によって当該ユニットの自身に対する限定とされない。例えば、前処理モジュールは、「予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するモジュール」として記載されても良い。

他の局面として、本出願は更に不揮発性コンピュータ記憶媒体を提供した。当該不揮発性コンピュータ記憶媒体は、上記実施例に説明された装置に含まれたものであっても良く、端末に実装されずに別途に存在するものであっても良い。上記不揮発性コンピュータ記憶媒体に一つ又は複数のプログラムが記憶され、上記一つ又は複数のプログラムが一つのデバイスにより実行されると、上記デバイスに、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得し、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出し、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定し、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別することを実行させる。

以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴（これらに限定されていない）とを互いに置き換えてなる技術方案も含まれる。

Claims

テキストタイプを識別する方法であって、
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップと、
前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するステップと、
前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、
前記テキストにおける前記各主題の出現確率値に基いて、前記テキストの所属するタイプを識別するするステップと、
を含むことを特徴とする方法。
前記タイプは、ポジティブタイプとネガティブタイプとを含み、
前記各主題のそれぞれのテキストにおける出現確率値に基いて、前記テキストの所属するタイプを識別するステップは、
テキストにおける前記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得するステップであって、前記第一ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、ステップと、
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップと、
を含むことを特徴とする請求項１に記載の方法。
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、
前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得するステップであって、前記第二ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジック回帰モデルの回帰パラメータは前記第一ロジック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものである、ステップと、
前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップと、
を含むことを特徴とする請求項２に記載の方法。
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップを含むことを特徴とする請求項２に記載の方法。
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するステップを含むことを特徴とする請求項３に記載の方法。
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップは、
前記テキストにおける特殊な符号を除去するステップと、
特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得するステップと、
前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得するステップと、
を含むことを特徴とする請求項１〜５の何れか一つに記載の方法。
テキストタイプを識別する装置であって、
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するように配置される前処理モジュールと、
前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、
前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、
前記テキストにおける前記各主題の出現確率値に基づいて、前記テキストの所属するタイプを識別するように配置される識別モジュールと、
を備えることを特徴とする装置。
前記タイプは、ポジティブタイプとネガティブタイプを含み、
前記識別モジュールは、
テキストにおける前記各主題の出現確率値を、予め構築された第一ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、前記第一ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニットと、
前記第一確率値に基づいて、前記テキストが前記ポジティブタイプに属するか否かを識別するように配置される識別ユニットと、
を備えることを特徴とする請求項７に記載の装置。
前記識別ユニットは、更に、
前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得し、前記第二ロジック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジック回帰モデルの回帰パラメータは前記第一ロジック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものであり、
前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定する、
ように配置されることを特徴とする請求項８に記載の装置。
前記識別モジュールは、更に、
前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するように配置されることを特徴とする請求項８に記載の装置。
前記識別ユニットは、更に、
前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するように配置されることを特徴とする請求項９に記載の装置。
前記前処理モジュールは、更に、
前記テキストにおける特殊な符号を除去し、
特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、
前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得する、
ように配置されることを特徴とする請求項７〜１１の何れか一つに記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されているメモリと、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項１〜６の何れか一つに記載の方法を実現させることを特徴とするデバイス。
プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、前記コンピュータ読取可能な指令がプロセッサにより実行されると、前記プロセッサが請求項１〜６の何れか一つに記載の方法を実行することを特徴とする不揮発性コンピュータ記憶媒体。