JP5155129B2 - 文書分類器のパラメータを調整する文書分類装置及び方法 - Google Patents

文書分類器のパラメータを調整する文書分類装置及び方法 Download PDF

Info

Publication number
JP5155129B2
JP5155129B2 JP2008316940A JP2008316940A JP5155129B2 JP 5155129 B2 JP5155129 B2 JP 5155129B2 JP 2008316940 A JP2008316940 A JP 2008316940A JP 2008316940 A JP2008316940 A JP 2008316940A JP 5155129 B2 JP5155129 B2 JP 5155129B2
Authority
JP
Japan
Prior art keywords
simulation
document
predetermined
parameter
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008316940A
Other languages
English (en)
Other versions
JP2010140318A (ja
Inventor
清 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008316940A priority Critical patent/JP5155129B2/ja
Publication of JP2010140318A publication Critical patent/JP2010140318A/ja
Application granted granted Critical
Publication of JP5155129B2 publication Critical patent/JP5155129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分類器のパラメータを調整する文書分類装置及び方法に関する。特に、文書分類器の分類結果を入力とするシミュレーション結果に基づいてパラメータの調整を行う文書分類装置及び方法に関する。
従来、様々な事象を分類するための分類器が提案されており、例えば、広告情報を決定するための基準データを設け、ユーザにより新たに入力されたデータを基準データに基づいてユーザに提示する広告情報分類する装置が提案されている(例えば、特許文献1)。特許文献1に記載の装置では、分類器としてサポートベクターマシンを用い、予め定めたキーワードといったパラメータに基づいて、基準データを生成することが示されている。また、当該パラメータは、広告情報を配信したい者が予め定めておくことが示されている。
特開2007−264721号公報
しかしながら、特許文献1に記載の装置は、機械学習により予め定めたパラメータに基づいて、分類器で広告を分類してユーザに提示することを目的としており、パラメータ自体の選択は管理者の検討事項となっている。さらに、機械学習において使用する教師データのラベル付けは管理者の解釈によるところとなっている。
そこで本発明は、パラメータ自体を調整することにより、管理者の検討内容や解釈にかかわらず、分類器を調整し、さらに、シミュレーション対象の処理系を含む全体システムの性能向上を実現することができる分類装置及び方法を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) 管理者端末と接続可能で、複数の所定のパラメータに基づいて、機械学習により株式投資判断に用いるための所定の文書を複数のカテゴリに分類する文書分類器を備える文書分類装置であって、前記複数の前記所定のパラメータそれぞれに対して、それぞれ所定の文書モデルによる分類結果である株式売買の買いまたは売りに応じた値を入力値とし、入力された前記買いまたは売りに応じた値により株式を単位数だけ仮想の売買を行い、最終的に得られた金額と初期投資額との比率をシミュレーション結果として算出する所定のシミュレーションを行うシミュレーション手段と、前記シミュレーション手段によるシミュレーションの結果を前記管理者端末に送信するシミュレーション結果送信手段と、前記管理者端末から前記所定のパラメータの調整入力を受け付けたことに応じて、前記シミュレーション手段によるシミュレーションの結果のうち最適な結果を与えるために、前記所定のパラメータの調整を行うパラメータ調整手段とを含む文書分類装置。
(1)記載の文書分類装置によれば、文書分類器により、所定のパラメータに基づいて、機械学習により株式投資判断に用いるための所定の文書を複数のカテゴリに分類する。そして、文書分類装置は、シミュレーション手段により、複数の所定のパラメータに対して、それぞれ所定の文書モデルによる分類結果である株式売買の買いまたは売りに応じた値を入力とし、入力された前記買いまたは売りに応じた値により株式を単位数だけ仮想の売買を行い、最終的に得られた金額と初期投資額との比率をシミュレーション結果として算出する所定のシミュレーションを行い、シミュレーション結果送信手段により複数の所定のシミュレーションの結果を管理者端末に送信する。そして、文書分類装置は、パラメータ調整手段により、複数のシミュレーションの結果のうち最適な結果を与えるために、管理者端末から所定のパラメータの調整入力を受け付けたことに応じて、所定のパラメータの調整を行う。
このようにすることで、(1)記載の文書分類装置では、パラメータ調整手段により、複数のパラメータ調整される。そして、複数の文書モデルによる分類結果を利用してシミュレーションを実行することにより、文書分類装置は、複数のシミュレーションの結果を得ることができる。このため、複数のシミュレーションの結果を比較することで、文書分類装置は、パラメータ調整の妥当性を判断できる。さらに、最適なシミュレーションの結果に基づいて、文書分類装置は、最適なパラメータを決定することができる。よって、パラメータ自体を調整することにより、管理者の検討内容や解釈にかかわらず、分類器を調整することができ、結果として、シミュレーション対象の処理系を含む全体システムの性能向上実現できる。
(2) 前記パラメータ調整手段は、前記シミュレーション手段による複数の前記所定のシミュレーションの結果のうち最適な結果を与えるパラメータを前記所定のパラメータとして選択する(1)に記載の文書分類装置。
(2)記載の文書分類装置によれば、パラメータ調整手段により、シミュレーション手段による複数の所定のシミュレーションの結果のうち、最適な結果を与えるパラメータ所定のパラメータとして選択される。このため、ユーザによる所定のパラメータの選択作業省略される
(3) 前記文書分類器は、サポートベクターマシンである(1)又は(2)記載の文書分類装置。
(3)記載の文書分類装置によれば、(1)又は(2)の効果に加えて、サポートベクターマシン(SVM:Support Vector Machine)という信頼性のある手段によって、文書の分類われる。ここで、サポートベクターマシン(SVM)とは、1995年にAT&TのV.Vapnikによって統計的学習理論の枠組で提案された学習機械のことである。
(4) 前記シミュレーション手段は、前記所定の文書モデルによる分類結果に応じてシミュレーションに対する入力値を生成し、当該入力値に基づいて、それぞれ複数の前記所定のシミュレーションを行う(1)から(3)のいずれかに記載の文書分類装置。
(4)記載の文書分類装置によれば、シミュレーション手段により、所定の文書モデルによる分類結果に応じてシミュレーションに対する入力値生成され、当該入力値に基づいて、それぞれ複数の所定のシミュレーションわれる。このため、分類結果に応じた入力値によりシミュレーションわれる
(5) 記憶手段を更に備え、前記シミュレーション手段は、複数の前記所定のシミュレーション結果を前記記憶手段に記憶される(1)から(4)のいずれかに記載の文書分類装置。
(5)記載の文書分類装置によれば、シミュレーション結果が記憶手段に記憶されるので、記憶手段を参照することによりシミュレーション結果認できる。
(6) 複数の所定のパラメータに基づいて、機械学習により所定の文書を複数のカテゴリに分類する文書分類器を備え、管理者端末と接続可能な文書分類装置が実行する文書分類方法であって、前記複数の前記所定のパラメータそれぞれに対して、それぞれ所定の文書モデルによる分類結果を入力とする所定のシミュレーションを行うステップと、前記シミュレーションを行うステップによるシミュレーションの結果を前記管理者端末に送信するステップと、前記管理者端末から前記所定のパラメータの調整入力を受け付けたことに応じて、複数の前記シミュレーションの結果のうち最適な結果を与えるために、前記所定のパラメータの調整を行うステップとを含むことを特徴とする文書分類方法。
このような方法によれば、当該方法を実施することにより、(1)と同様の効果が期待できる。
本発明によれば、分類器の精度向上パラメータ調整により実現できる。さらに、シミュレーション対象の処理系を含む全体システムの性能向上実現される
以下、本発明の実施形態について図を参照しながら説明する。
[システム全体構成及び機能構成]
図1は、本実施形態に係る文書分類装置10と、シミュレーション装置20と、管理者端末30との全体構成及びそれぞれの装置における機能ブロックを示す図である。文書分類装置10と、シミュレーション装置20と、管理者端末30とは、通信ネットワーク40を介して通信可能に接続される。文書分類装置10は、文書分類器11を備える。そして、シミュレーション装置20、文書分類器11から出力される分類結果に応じた入力値を生成し、この入力値に基づいてシミュレーションを行い、シミュレーションの結果を記憶するとともに、管理者端末30に表示させるために送信する。管理者端末30では、ユーザが表示されたシミュレーションの結果を確認し、この結果に基づいて文書分類器11のパラメータの調整を行う。このように、本実施形態では、文書分類装置10は、文書分類器11の分類結果に応じた入力値によりシミュレーションを行い、シミュレーション結果が最適となるように、文書分類器11のパラメータ調整を行うことができる。
文書分類装置10は、上述のように文書分類器11を備えるとともに、制御部10aと記憶部10bとを備える。そして、制御部10aは、文書モデル生成部12と、パラメータ調整部13とを備える。また、記憶部10bは、コーパスDB14と、パラメータDB15と、を備える。また、図示は省略するが、文書分類装置10は、一時的に生成されるテーブルとして分類結果テーブル16(後述の図4参照)を備える。なお、文書分類器11は、図1において、説明の便宜上、制御部10aと記憶部10bとに含まれないように表記しているが、実際には、制御部10aと記憶部10bとにより構成されるものである。
シミュレーション装置20は、制御部20aと記憶部20bとを備える。そして、制御部20aは、入力値生成部21と、シミュレーション部22とを備える。また、記憶部20bは、ヒストリカルDB23と、シミュレーション結果DB24とを備える。
管理者端末30は、制御部30aと、表示部33と、操作部34とを備える。そして、制御部30aは、分類操作受付部31と、パラメータ調整受付部32とを備える。
文書分類器11は、機械学習(訓練)により所定の文書を複数のカテゴリに分類して、分類結果を出力するものであり、管理者端末30の操作部34による所定の操作により処理が行われる。機械学習は、サポートベクターマシン(SVM:Support Vector Machine)により行われる。サポートベクターマシンとは、高次元特徴空間において線形関数の仮説空間を用いる学習システムのことである。サポートベクターマシンは、文書モデル及びパラメータに基づいて、妥当データの集合と非妥当データの集合とを識別するための識別面及びサポートベクターを決定する。そして、サポートベクターマシンは、識別面及びサポートベクターに基づいて、新たなデータを分類し、分類結果を出力する。
本実施形態では、後述の文書モデル生成部12が、サポートベクターマシンを用いた文書分類器11をコーパスDB14を用いて訓練させることにより、文書モデルを生成することが可能である。文書分類器11は、当該文書モデル及び予め記憶しているパラメータセットに基づいて対象文書を分類し、この分類結果を一時的に生成される分類結果テーブル16(後述の図4参照)に記憶する。また、文書分類器11は、後述のパラメータ調整部13によりパラメータの調整が行われたことに応じて、調整されたパラメータに含まれるパラメータセットID更新する。また、文書分類器11は、分類処理を行うときに、パラメータDB15(後述の図3参照)を参照して、調整されたパラメータセットIDに対応するパラメータを抽出する。
文書モデル生成部12は、管理者端末30が文書分類器11による分類を行うための所定の操作を受け付けたことに応じて、文書モデルを生成する。具体的には、後述の管理者端末30の分類操作受付部31が、管理者端末30のユーザによる、文書分類器11の訓練を行うためのコーパス(後述のコーパスDB14に含まれるデータの一部である訓練データ)及びパラメータの指定を伴う入力を受け付けたことに応じて、文書分類装置10に対して指示が与えられる。そして、文書モデル生成部12は、指定されたコーパス及びパラメータを文書分類器11に与え、文書モデルを生成する。
パラメータ調整部13は、複数のシミュレーション結果のうち、最適な結果を与えるために、管理者端末30からパラメータの調整入力を受け付けたことに応じて、パラメータの調整を行う。具体的には、後述で説明する管理者端末30のパラメータ調整受付部32が、管理者端末30のユーザによる、パラメータの調整入力を受け付けたことに応じて、管理者端末30は、文書分類装置10に対してパラメータ送信る。そして、パラメータ調整部13は、パラメータを受信して、パラメータDB15に当該パラメータを記憶するとともに、受信したパラメータに含まれるパラメータセットIDを文書分類器11に設定することで、パラメータの調整を行う。
図2は、本実施形態に係るコーパスDB14を示す図である。コーパスDB14には、Web上のブログより抽出された文書に関するデータ及びそれぞれの文書に付与されたクラスラベル(分類ラベル)が記憶されている。このコーパスDB14は、文書分類器11により当該文書を分類するために参照される。コーパスDB14には、文書を一意に特定する「文書ID」フィールドと、文書がブログに書き込まれた日時、すなわち、文書の作成日時を示す「作成日時」フィールドと、文書の内容を示す「文書内容」フィールドと、「クラスラベル(分類ラベル)」フィールドとが含まれている。なお、本実施形態に係るコーパスDB14に記憶されているデータは、クローラ(図示省略)といった公知の様々なプログラムを実行することにより、外部の情報源サーバから取得され、さらに、人手による作業又は何らかの外部データの加工等によりクラスラベル付与されることで作成される。また、データの取得は、定期的又は文書分類装置10の管理者によるデータ取得要求を受け付けることにより行われる。さらに、クラスラベルについて、例えば金融関係の処理のためのクラスラベルには、「+」(ポジティブ)、「−」(ネガティブ)、「±」(ニュートラル)等が付与される。
また、本実施形態では、コーパスDB14は、Web上のブログより抽出された文書に関するデータを記憶することとしたが、これに限らない。例えば、コーパスDB14は、ニュース配信サーバに記憶されているニュース記事や、検索サーバに記憶されている検索ログといった様々な文書を取得することとしてもよい。
図3は、本実施形態に係るパラメータDB15を示す図である。パラメータDB15には、文書分類器11のパラメータが記憶されている。そして、パラメータDB15には、一連のパラメータセットを示す「パラメータセットID」フィールドと、パラメータを一意に特定する「パラメータID」フィールドと、パラメータ名を示す「パラメータ名」フィールドと、パラメータのウェイトを示す「ウェイト」フィールドとが含まれている。パラメータDB15では、パラメータ調整部13によりデータの更新又は追加が行われる。具体的には、管理者端末30によりパラメータの調整が受け付けられると、調整において指定されたパラメータセットIDに応じたパラメータが更新又は追記される。すなわち、管理者端末30のパラメータ調整受付部32により、既存のパラメータセットIDが選択されると、当該既存のパラメータセットIDに応じた「ウェイト」フィールドの値が更新される。また、管理者端末30のパラメータ調整受付部32により、新規のパラメータセットIDが選択されると、当該新規のパラメータセットIDと、新規のパラメータセットIDに応じた各フィールドの値がパラメータDB15に追加される。このように、パラメータDB15には、複数のパラメータセットIDが記憶され、それぞれのパラメータセットIDごとにパラメータが記憶されるので、ユーザは、過去に文書分類器11を訓練させたときのパラメータをいつでも参照することができる。
図4は、本実施形態に係る分類結果テーブル16を示す図である。分類結果テーブル16には、文書分類器11により出力された文書分類の分類結果が記憶されている。分類結果テーブル16には、文書分類器11で使用されたパラメータセットを示す「パラメータセットID」フィールドと、分類された文書を示す「文書ID」フィールドと、分類された文書の作成日時を示す「作成日時」フィールドと、分類結果を示す「クラスラベル(分類ラベル)」フィールドとが含まれている。分類結果テーブル16は、一時的に生成されるテーブルであり、文書分類器11が文書分類の分類結果を記憶するために後述のメインメモリ1050といった補助記憶装置に一時的に生成される。そして、分類結果テーブル16は、シミュレーション装置20がシミュレーションを行うときに参照される。そして、分類結果テーブル16は、シミュレーション装置20への入力値の入力後に破棄される。なお、本実施形態では、分類結果テーブル16は、シミュレーション装置20への入力値の入力後に破棄されることとしたが、記憶部10bに所定のDBを設けて、当該DBに分類結果テーブル16を静的に記憶させてもよい。このようにすることで、分類結果テーブル16には、複数のパラメータセットIDが記憶され、それぞれのパラメータセットIDごとに分類結果が記憶される。このため、ユーザは、所定のパラメータセットIDにより訓練を行い生成された文書モデルに従って分類された分類結果をいつでも参照することができる。
図1に戻り、入力値生成部21は、分類結果テーブル16を参照し、文書分類器11による分類結果であるクラスラベルに基づいて、シミュレーションの入力値を生成し、シミュレーション部22に受け渡す。例えば、本実施形態において文書分類装置10が株式投資に係る文書を取り扱うとして、入力値生成部21は、シミュレーションにおいて投資実績を算出するシミュレーションを行うとする。この場合に、クラスラベルの値が、「+」、「−」及び「±」の3値をとることとする。文書分類器11による分類結果であるクラスラベルの値が「+」である場合には、入力値生成部21は、シミュレーションにおける入力値を「買い」に応じた入力値とする。また、クラスラベルの値が「−」である場合には、入力値生成部21は、シミュレーションにおける入力値を「売り」に応じた入力値とする。また、クラスラベルの値が「±」である場合には、入力値生成部21は、「静観」、すなわち何もしないに応じた入力値とする。
シミュレーション部22は、複数の所定のパラメータに対して、それぞれ所定の文書モデルによる分類結果を入力とする所定のシミュレーションを行い、複数の所定のシミュレーションの結果を管理者端末30に送信する。具体的には、シミュレーション部22は、入力値生成部21により決定された複数の入力値と、ヒストリカルDB23(後述の図5参照)とに基づいて、シミュレーションを行う。そして、シミュレーション部22は、シミュレーション結果を管理者端末30の表示部33に表示するために、管理者端末30に送信する。例えば、シミュレーション部22は、本実施形態において文書分類装置10が株式投資に係る文書を取り扱うとして、シミュレーションにおいて投資実績を算出するシミュレーションを行うとする。この場合には、入力値生成部21により決定された、「買い」、「売り」に応じた値が入力値となる。そして、ヒストリカルDB23(後述の図5参照)には、過去の株価の情報が記憶されているとすると、過去の株価に対して、入力値生成部21により決定された、「買い」、「売り」に応じた値により、仮想の株式売買を行うシミュレーションが行われる。ここで、仮想の株式売買を行うシミュレーションとは、例えば、初期投資額を設定し、入力値生成部21により決定された、「買い」、「売り」に応じた値により、株式を単位数だけ売買を行うもので、最終的に得られた金額と初期投資額との比率をシミュレーション結果として算出するといったものである。そして、このシミュレーションをパラメータを調整しながら複数回行うことにより、複数のシミュレーション結果が送信されるので、ユーザは、複数のシミュレーション結果から最適なシミュレーション結果について検討することができる。
なお、本実施形態では、シミュレーション部22が管理者端末30にシミュレーション結果を送信することとしたが、これに限らない。例えば、シミュレーション部22は、シミュレーション結果をシミュレーション結果DB24(後述の図6参照)に記憶するようにしてもよい。このようにすることで、シミュレーション結果がシミュレーション結果DB24に記憶されるので、ユーザは、シミュレーション結果DB24を参照することによりシミュレーション結果を確認することができる。
図5は、本実施形態に係るヒストリカルDB23を示す図である。ヒストリカルDB23には、シミュレーションを行うためのデータが記憶されており、ヒストリカルDB23は、シミュレーション部22により参照される。例えば、本実施形態において文書分類装置10が株式投資に係る文書を取り扱うとして、シミュレーションにおいて投資実績を算出するシミュレーションを行うとすると、株式市場における過去の取引値の情報が記憶される。この場合には、ヒストリカルDB23には、売買が行われた日を示す「日付」フィールドと、売買が行われた日における取引値を示す「取引値」フィールドとが含まれる。
図6は、本実施形態において、シミュレーション結果がシミュレーション結果DB24に記憶されるようにした場合のシミュレーション結果DB24を示す図である。シミュレーション結果DB24には、シミュレーション部22によるシミュレーションのシミュレーション結果が記憶される。このシミュレーション結果は、シミュレーション部22により記憶される。例えば、本実施形態において文書分類装置10が株式投資に係る文書を取り扱うとして、シミュレーションにおいて投資実績を算出するシミュレーションを行うとすると、株式市場における過去取引値を用いたシミュレーションの結果が、シミュレーション結果DB24に記憶される。シミュレーション結果DB24には、シミュレーションの際に使用された入力値に対応するパラメータセットIDを示す「パラメータセットID」フィールドと、シミュレーションにおける取引の開始日を示す「シミュレーション開始日」フィールドと、シミュレーションにおける取引の終了日を示す「シミュレーション終了日」フィールドと、シミュレーション結果のパフォーマンスを示す「上昇率」フィールドとが含まれている。本実施形態では、シミュレーション部22によるシミュレーション結果が出力されると管理者端末30の表示部33に表示されることとしたが、これに限らない。例えば、管理者端末30がシミュレーション結果DB24を参照可能なシミュレーション結果参照部を設けて、過去に行ったシミュレーション結果を、ユーザがいつでも参照できるようにしてもよい。このようにすることで、シミュレーション結果がシミュレーション装置20により管理され、いつでも管理者端末30のユーザが確認できる。
図1に戻り、パラメータ調整受付部32は、管理者端末30のユーザが入力したパラメータの調整入力を受け付け、受け付けたパラメータを文書分類装置10に対して送信する。なお、本実施形態では、管理者端末30のユーザがパラメータの調整入力を行うことで、文書分類器11のパラメータ調整を行うこととしたが、これに限らない。例えば、文書分類装置10にパラメータ自動調整部を設けて、パラメータ自動調整部が、シミュレーション結果DB24を参照してパラメータを自動調整することとしてもよい。すなわち、パラメータ自動調整部が、シミュレーション結果DB24に記憶されたシミュレーション結果においてパフォーマンスが最もよいシミュレーション結果のパラメータを抽出して、パラメータ調整部13に受け渡し、パラメータ調整部13によりパラメータを調整するようにしてもよい。このようにすることで、シミュレーション結果に基づいてパラメータ調整を行う処理を自動化できるので、最適なパラメータの調整を行う際に人手を介することによりかかる時間短縮される
表示部33は、管理者端末30の機能に関する表示を行い、例えば、分類操作受付入力の画面や、パラメータ調整の画面を表示する。他に、表示部33は、通信ネットワーク40により通信可能となる各種サーバから提供される情報を表示する。例えば、表示部33は、シミュレーション装置20より受信したシミュレーション結果を表示する。
操作部34は、ユーザが管理者端末30の操作を行うために設けられ、例えば、マウスやキーボード等を指す。
[文書分類装置10のハードウェア構成]
図7は、本実施形態に係る文書分類装置10のハードウェア構成を示す図である。本発明が実施される文書分類装置10は標準的なものでよく、以下に構成の一例を示す。
文書分類装置10は、制御部10aを構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076及び半導体メモリ1078はまとめて記憶部10bと呼ぶ。
制御部10aは、文書分類装置10を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、図1に示す各機能や、データの送受信機能といった本発明に係る各種機能を実現している。
通信I/F1040は、文書分類装置10が、通信ネットワーク40を介して端末等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、文書分類装置10の起動時にCPU1010が実行するブートプログラムや、文書分類装置10のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076及び半導体メモリ1078等の記憶装置である記憶部10bを接続することができる。
入力装置1100は、文書分類装置10の管理者による入力の受け付けを行うものである。
ハードディスク1074は、本ハードウェアを文書分類装置10として機能させるための各種プログラム、本実施形態における各種機能を実行するプログラム及び各DBを記憶する。なお、文書分類装置10は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ及びCD−RAMドライブを使用することができる。光ディスクドライブ1076を使用する場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本実施形態でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、文書分類装置10は、上述のように、制御部10a、記憶部10b等を備えた情報処理装置により構成され、この情報処理装置は、本実施形態のコンピュータの概念に含まれる。
また、文書分類装置10は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、文書分類装置10は、複数のハードウェアで構成する場合には、通信ネットワーク40を介して各ハードウェアを接続してもよい。例えば、上述する各機能ごとに別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
[シミュレーション装置及び管理者端末のハードウェア構成]
シミュレーション装置20及び管理者端末30も、上述の文書分類装置10と同様の構成を持つ。また、本実施形態ではいわゆるコンピュータで実現した例について説明するが、さらに、本実施形態の原理が適用可能である限り、様々な端末で実現してよい。
[フローチャート]
図8は、本実施形態に係る文書分類器11のパラメータ調整を行う一連の処理の流れを示すフローチャートである。なお、一連の処理は、管理者端末30の操作部34による所定の操作を契機として行われる。
ステップS1では、制御部10a(文書モデル生成部12)は、管理者端末30が文書分類器11による訓練を行うためにコーパスDB14の一部のコーパス及びパラメータの指定を伴う入力を受け付けたことに応じて、指定されたコーパス及びパラメータを文書分類器11に与え、文書モデルを生成する。
ステップS2では、文書分類器11は、ステップS1において生成した文書モデルに基づいて、分類対象の文書集合を複数のカテゴリに分類し、分類結果を分類結果テーブル16に記憶させる。なお、分類対象の文書集合は、文書分類装置10の外部より取得することとするが、これに限らず、コーパスDB14に記憶されているコーパスを構成する文書を再利用してもよい。
ステップS3では、制御部20a(入力値生成部21)は、分類結果テーブル16に記憶されている文書の分類結果を参照して、シミュレーションの入力値を生成する。
ステップS4では、制御部20a(シミュレーション部22)は、入力値生成部21により決定された入力値と、ヒストリカルDB23とに基づいて、シミュレーションを行い、シミュレーションの結果を管理者端末30に送信するとともに、シミュレーション結果DB24に記憶する。
ステップS5では、管理者端末30は、シミュレーションの結果を受信して、表示部33にシミュレーション結果を表示する。より具体的には、表示部33は、図9に示されるシミュレーション結果画像341のように表示する
図9は、株式市場において銘柄「1234」を売買するシミュレーションを行ったときのシミュレーションの結果が管理者端末30の表示部33に表示されている例を示す図である。図9に示す表示例では、文書モデル生成時に用いたパラメータセットID、シミュレーションの開始日及び終了日、パフォーマンス並びにパラメータセットIDに対応するウェイトが表示されていることが確認できる。管理者端末30のユーザは、この画面よりシミュレーションのパフォーマンスを確認した後に、後述のパラメータ入力受付画面342でパラメータ調整を行うことができる。
図8に戻り、ステップS6では、制御部30a(パラメータ調整受付部32)は、パラメータ入力受付画面を表示部33に表示させて、操作部34を介してユーザによるパラメータの調整を受け付け、受け付けられたパラメータを文書分類装置10に送信する。より具体的には、パラメータの調整の受け付けは、図10に示されるパラメータ入力受付画面342を用いて行われる。
図10は、管理者端末30の表示部33に表示されるパラメータ入力受付画面342の表示例を示す図である。図10に示されるパラメータ入力受付画面342には、パラメータセットIDを決定するためのテキスト欄3421と、それぞれのパラメータのウェイトを入力するためのテキスト欄3422、3423及び3424と、決定ボタン3425とが表示されていることが確認できる。このテキスト欄には、管理者端末30のユーザが操作部34を介して数値等の入力が可能である。そして、全ての項目入力確認後に操作部34を介して決定ボタンを押下されることにより、管理者端末30は、パラメータの調整を受け付け、受け付けられたパラメータを文書分類装置10に送信する。このように、図10で調整可能なパラメータを用いて文書分類器11を訓練させることにより、当該調整後のパラメータに対応した文書モデルられる
図8に戻り、ステップS7では、制御部10a(パラメータ調整部13)は、管理者端末30より送信されたパラメータを受信して、文書分類器11のパラメータ調整を行う。具体的には、パラメータ調整部13は、文書分類器11にパラメータセットIDを設定するとともに、パラメータをパラメータDB15に記憶する。
このように、本実施形態では、ステップS1からステップS5までの処理を行うことにより、管理者端末30の表示部33にシミュレーション結果画像341が表示される。このため、管理者端末30のユーザは、シミュレーション結果を確認することができる。さらに、本実施形態では、ステップS6及びステップS7の処理を行うことで、文書分類器11のパラメータを変更することができる。このため、本実施形態では、パラメータを変更した後にステップS1からステップS5の処理を行うことにより、変更したパラメータを用いて文書分類器11を訓練して調整後の文書モデルを生成することができる。
このように、本実施形態では、パラメータの調整、当該調整を反映した文書モデルの生成、当該文書モデルを用いた文書分類、当該文書分類結果を入力とするシミュレーション、を繰り返すことにより、シミュレーションの結果を最適化するパラメータを見つけ出すことができる。より具体的には、管理者端末30のユーザは、複数のシミュレーション結果との比較を行うことにより、図9に示されるシミュレーション結果が良好であるか否かを判断することができる。そして、管理者端末30のユーザは、良好な結果であった場合には、そのシミュレーションで使用したパラメータセットIDに応じたパラメータが文書分類器11のパラメータとして好適であることが確認できる。すなわち、本実施形態では、分類結果を利用して複数のシミュレーションを実行することにより、複数のシミュレーションの結果を得ることができ、この結果、最適なシミュレーションの結果に基づいて、最適なパラメータを決定することができる。よって、本実施形態では、パラメータ自体を調整することにより、管理者の検討内容や解釈にかかわらず、分類器を調整することができ、結果として、文書分類器11の精度向上をパラメータ調整により実現できる。さらに、本実施形態では、シミュレーション対象の処理系を含む全体システムの性能向上を実現することができる。
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
本実施形態に係る文書分類装置10と、シミュレーション装置20と、管理者端末30との全体構成及びそれぞれの装置における機能ブロックを示す図である。 本実施形態に係るコーパスDB14を示す図である。 本実施形態に係るパラメータDB15を示す図である。 本実施形態に係る分類結果テーブル16を示す図である。 本実施形態に係るヒストリカルDB23を示す図である。 本実施形態に係るシミュレーション結果DB24を示す図である。 本実施形態に係る文書分類装置10のハードウェア構成を示す図である。 本実施形態に係る文書分類器11のパラメータ調整を行う一連の処理の流れを示すフローチャートである。 本実施形態に係る管理者端末30の表示部33に表示されるシミュレーション結果に関する画像の表示例を示す図である。 本実施形態に係る管理者端末30の表示部33に示されるパラメータ調整に関する画像の表示例を示す図である。
10 文書分類装置
10a 制御部
10b 記憶部
11 文書分類器
12 文書モデル生成部
13 パラメータ調整部
14 コーパスDB
15 パラメータDB
16 分類結果テーブル
20 シミュレーション装置
20a 制御部
20b 記憶部
21 入力値生成部
22 シミュレーション部
23 ヒストリカルDB
24 シミュレーション結果DB
30 管理者端末
30a 制御部
31 分類操作受付部
32 パラメータ調整受付部
33 表示部
34 操作部
40 通信ネットワーク

Claims (6)

  1. 管理者端末と接続可能で、複数の所定のパラメータに基づいて、機械学習により株式投資判断に用いるための所定の文書を複数のカテゴリに分類する文書分類器を備える文書分類装置であって、
    前記複数の前記所定のパラメータそれぞれに対して、それぞれ所定の文書モデルによる分類結果である株式売買の買いまたは売りに応じた値を入力値とし、入力された前記買いまたは売りに応じた値により株式を単位数だけ仮想の売買を行い、最終的に得られた金額と初期投資額との比率をシミュレーション結果として算出する所定のシミュレーションを行うシミュレーション手段と、
    前記シミュレーション手段によるシミュレーションの結果を前記管理者端末に送信するシミュレーション結果送信手段と、
    前記管理者端末から前記所定のパラメータの調整入力を受け付けたことに応じて、前記シミュレーション手段によるシミュレーションの結果のうち最適な結果を与えるために、前記所定のパラメータの調整を行うパラメータ調整手段とを含む文書分類装置。
  2. 前記パラメータ調整手段は、前記シミュレーション手段による複数の前記所定のシミュレーションの結果のうち最適な結果を与えるパラメータを前記所定のパラメータとして選択する請求項1に記載の文書分類装置。
  3. 前記文書分類器は、サポートベクターマシンである請求項1又は2記載の文書分類装置。
  4. 前記シミュレーション手段は、前記所定の文書モデルによる分類結果に応じてシミュレーションに対する入力値を生成し、当該入力値に基づいて、それぞれ複数の前記所定のシミュレーションを行う請求項1から3のいずれかに記載の文書分類装置。
  5. 記憶手段を更に備え、
    前記シミュレーション手段は、複数の前記所定のシミュレーション結果を前記記憶手段に記憶させる請求項1から4のいずれかに記載の文書分類装置。
  6. 複数の所定のパラメータに基づいて、機械学習により株式投資判断に用いるための所定の文書を複数のカテゴリに分類する文書分類器を備え、管理者端末と接続可能な文書分類装置が実行する文書分類方法であって、
    前記複数の前記所定のパラメータそれぞれに対して、それぞれ所定の文書モデルによる分類結果である株式売買の買いまたは売りに応じた値を入力値とし、入力された前記買いまたは売りに応じた値により株式を単位数だけ仮想の売買を行い、最終的に得られた金額と初期投資額との比率をシミュレーション結果として算出する所定のシミュレーションを行うステップと、
    前記シミュレーションを行うステップによるシミュレーションの結果を前記管理者端末に送信するステップと、
    前記管理者端末から前記所定のパラメータの調整入力を受け付けたことに応じて、複数の前記シミュレーションの結果のうち最適な結果を与えるために、前記所定のパラメータの調整を行うステップとを含むことを特徴とする文書分類方法。
JP2008316940A 2008-12-12 2008-12-12 文書分類器のパラメータを調整する文書分類装置及び方法 Active JP5155129B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008316940A JP5155129B2 (ja) 2008-12-12 2008-12-12 文書分類器のパラメータを調整する文書分類装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008316940A JP5155129B2 (ja) 2008-12-12 2008-12-12 文書分類器のパラメータを調整する文書分類装置及び方法

Publications (2)

Publication Number Publication Date
JP2010140318A JP2010140318A (ja) 2010-06-24
JP5155129B2 true JP5155129B2 (ja) 2013-02-27

Family

ID=42350403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008316940A Active JP5155129B2 (ja) 2008-12-12 2008-12-12 文書分類器のパラメータを調整する文書分類装置及び方法

Country Status (1)

Country Link
JP (1) JP5155129B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5408380B1 (ja) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP5669904B1 (ja) * 2013-09-06 2015-02-18 株式会社Ubic 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5990562B2 (ja) * 2014-12-16 2016-09-14 株式会社Ubic 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP7257169B2 (ja) * 2019-02-13 2023-04-13 株式会社キーエンス データ分析装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09325890A (ja) * 1996-06-04 1997-12-16 Toshiba Corp パターン発見方法およびパターン発見装置
JP2005018724A (ja) * 2003-06-03 2005-01-20 Antorenesuto Japan:Kk 投資および投資回収支援プログラム、投資および投資回収支援システム、自動投資および投資回収プログラムおよび自動投資および投資回収システム。

Also Published As

Publication number Publication date
JP2010140318A (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
US11853935B2 (en) Automated recommendations for task automation
US11514511B2 (en) Autonomous bidder solicitation and selection system
US20110173222A1 (en) Data value replacement in a database
US20120072268A1 (en) Reputation system to evaluate work
US11164152B2 (en) Autonomous procurement system
Syahputra Website Based Sales Information System With The Concept Of Mvc (Model View Controller): Website Based Sales Information System With The Concept Of Mvc (Model View Controller)
US11163783B2 (en) Auto-selection of hierarchically-related near-term forecasting models
WO2019105235A1 (zh) 定价方法、装置和计算机可读存储介质
CN110796416B (zh) 一种基于工业联网订单处理方法及计算机存储介质
CN112634056A (zh) 快速计算、更新企业股权结构的方法、设备和存储介质
JP5155129B2 (ja) 文書分類器のパラメータを調整する文書分類装置及び方法
CN104380330A (zh) 外汇交易装置、外汇交易系统、发送接收方法和程序
US20140195312A1 (en) System and method for management of processing workers
CN105761024A (zh) 便于产品管理的信息化招投标系统
EP4283496A1 (en) Techniques for automatic filling of an input form to generate a listing
US20160171608A1 (en) Methods and systems for finding similar funds
WO2023040155A1 (zh) 基于预设标签的策略生成方法、装置及存储介质
CN111985828A (zh) 资金支付预算的管控方法、装置、设备及计算机存储介质
US20160071042A1 (en) Quoting Tool and Design Module for Continuous Emission Monitoring Systems
JP6927862B2 (ja) 市況コメント生成支援装置および市況コメント生成支援方法
JP2021051525A (ja) 資金調達支援システム、資金調達支援方法及び資金調達支援プログラム
KR20190096534A (ko) 고객 통계 분석 자료 생성 방법 및 장치
CN113971612B (zh) 业务数据处理方法、装置、设备及存储介质
CN111429242B (zh) 转贴现票据组合推送方法及装置
JP2002073985A (ja) 取引支援方法及び取引支援プログラムが記録された記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121206

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5155129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350