JP2009223749A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2009223749A JP2009223749A JP2008069169A JP2008069169A JP2009223749A JP 2009223749 A JP2009223749 A JP 2009223749A JP 2008069169 A JP2008069169 A JP 2008069169A JP 2008069169 A JP2008069169 A JP 2008069169A JP 2009223749 A JP2009223749 A JP 2009223749A
- Authority
- JP
- Japan
- Prior art keywords
- information
- evaluation
- character string
- user
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来、ある特定の層やグループに属する人たちの評判を知ることができなかった。
【解決手段】文章群とユーザ識別子とを有するユーザ情報を格納し得るユーザ情報格納部と、評価対象の良し悪しに関する用語である評価語を有する評価情報を1以上格納している評価情報格納部と、評価者を特定する情報である評価者特定情報を受け付ける受付部と、評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語を用いて評価を取得する評価取得部と、評価取得部が取得した評価対象の評価を出力する評価出力部を具備する情報処理装置により、ある特定の層やグループに属する人たちの評判を知ることができる。
【選択図】図1
【解決手段】文章群とユーザ識別子とを有するユーザ情報を格納し得るユーザ情報格納部と、評価対象の良し悪しに関する用語である評価語を有する評価情報を1以上格納している評価情報格納部と、評価者を特定する情報である評価者特定情報を受け付ける受付部と、評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語を用いて評価を取得する評価取得部と、評価取得部が取得した評価対象の評価を出力する評価出力部を具備する情報処理装置により、ある特定の層やグループに属する人たちの評判を知ることができる。
【選択図】図1
Description
本発明は、一部の特定のユーザが記載した情報(例えば、ブログなど)から、ある対象物についての特定のユーザの評価を出力する情報処理装置等に関するものである。
従来、ユーザの嗜好に合わせた情報を提示するシステムがあった(例えば、特許文献1参照)。本システムは、各ユーザ端末の電話番号とユーザ属性情報とが関連付けられて格納されたユーザ情報DBと、ユーザ端末から外部サイトへのアクセス要求がされると、アクセス先URLと電話番号とを取得するゲートウェイと、その電話番号に基づいて、ユーザ属性情報を選択し、ユーザ属性情報とアクセス先URLとを関連付けてマーケティング情報格納部を順次更新するアクセス特性収集部とを備えている。そして、ユーザ端末がポータルサイトにアクセスすると、ユーザの属性に基づき、マーケティング情報格納部に格納されている情報に基づいた紹介情報がユーザ端末に表示される。
また、従来、世の中のブログやWeb日記から評判情報を自動抽出することができる技術がある。かかる技術を利用して、キーワードの盛り上がり度(バースト度)、評判分析が可能である(例えば、非特許文献1参照)。
特開2006−235744号公報(第1頁、第1図等)
インターネット<URL:http://www.hottolink.co.jp/service/analyze/bw.html>
しかしながら、従来の技術では、ブログの全体を解析し、ある評価対象に対して、全体の評判を知ることができるだけで、ある特定の層やグループに属する人たちの評判を知ることができなかった。
本第一の発明の情報処理装置は、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納し得るユーザ情報格納部と、評価対象の良し悪しに関する用語である評価語を有する評価情報を1以上格納している評価情報格納部と、評価者を特定する情報である評価者特定情報を受け付ける受付部と、前記評価者特定情報で特定される評価者が記載した文章群を、前記ユーザ情報格納部から取得する文章群取得部と、前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語を用いて評価を取得する評価取得部と、前記評価取得部が取得した評価対象の評価を出力する評価出力部を具備する情報処理装置である。
かかる構成により、ある特定の層やグループに属する人たちの評判を知ることができる。なお、ある特定の層やグループとは、例えば、ある事象についての専門家や権威者、ユーザと嗜好の近い人たち、ユーザの知人・友人などである。
また、本第二の発明の情報処理装置は、第一の発明に対して、前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象が含まれる文を取得する文選択部と、前記文選択部が取得した文を含む出力情報を構成し、出力する出力情報出力部とをさらに具備する情報処理装置である。
かかる構成により、評価の元になる文を、ユーザに提示できる。かかることにより、例えば、評価の高い対象物について、ブログ等に記載された情報を送信し、評価の高い対象物について、情報をレコメンドできる。
また、本第三の発明の情報処理装置は、第二の発明に対して、前記ユーザ情報は、文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、前記評価取得部は、前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、前記文選択部は、前記評価の遷移から、一定以上の評価の上昇が見られる評価対象が含まれる文の一部を取得する情報処理装置である。
かかる構成により、対象物の評価についての時系列の情報を用い、例えば、評価が急上昇している対象について、情報を出力できる。
また、本第四の発明の情報処理装置は、第一の発明に対して、広告情報を格納している広告情報格納部と、前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を取得する広告情報取得部と、前記広告情報取得部が取得した広告情報を出力する広告情報出力部とをさらに具備する情報処理装置である。
かかる構成により、対象物の評価を用いて、広告を出力できる。
また、本第五の発明の情報処理装置は、第四の発明に対して、前記ユーザ情報は、文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、前記評価取得部は、前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、前記広告情報取得部は、前記評価の遷移から、一定以上の評価の上昇が見られる評価対象を選択し、当該評価対象に対応する広告情報を取得する情報処理装置である。
かかる構成により、対象物の評価についての時系列の情報を用い、例えば、評価が急上昇している対象について、広告情報を出力できる。
また、本第六の発明の情報処理装置は、第一から第五いずれかの発明に対して、前記評価対象取得部は、第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、前記1以上の各文について、当該各文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、前記文分割制御手段が取得した第二文字列の種類から評価対象を含む第二文字列を特定し、当該第二文字列から評価対象を取得する評価対象取得手段とを具備する情報処理装置である。
かかる構成により、精度の高い自然言語処理が可能となり、特に、口語調の文が多いブログなどの解析が精度高くできる。
また、本第七の発明の情報処理装置は、第六の発明に対して、前記文分割制御手段は、前記文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に当該文字列が存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、前記要素分割手段が未知語情報を付与した連続する未知語でありひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、隣接する前記要素分割手段が分割した要素またはまとまり情報が有する、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号を読み出し、当該前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、連結可能な要素またはまとまり情報を一つの文字列にまとめて、複数の第二文字列を取得する要素連結手段と、前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する情報処理装置である。
かかる構成により、精度の高い自然言語処理が可能となり、特に、口語調の文が多いブログなどの解析が精度高くできる。
また、本第八の発明の情報処理装置は、第一から第七いずれかの発明に対して、前記評価情報は、評価対象の良し悪しに関する用語である評価語、および良し悪しの程度を示すスコアを対に有し、前記評価取得部は、前記評価対象を含む第二文字列を有する文中の他の第二文字列の種類を用いて評価語を含み得る第二文字列を特定し、当該第二文字列が有する評価語を前記評価情報格納部から検索し、当該検索した評価語と対になるスコアを前記評価情報格納部から取得するスコア取得手段と、前記評価対象取得手段が取得した同一の評価対象についての1以上のスコアを用いて、当該評価対象についての評価を算出する評価算出手段とを具備する情報処理装置である。
かかる構成により、対象物に対する評価の算出が精度高くできる。
また、本第九の発明の情報処理装置は、第八の発明に対して、前記評価取得部は、評価語に対する評価の変更を示す言い回しの用語である変更語、および評価を変更するための情報である評価変更情報の対である変更情報を1以上格納している変更情報格納手段と、評価語から所定以内の文字数の距離内にある変更語を取得する変更語取得手段と、前記変更語と対になる評価変更情報を取得する評価変更情報取得手段と、前記スコア取得手段が取得したスコアに対して、前記評価変更情報取得手段が取得した評価変更情報を用いて、スコアを変更し、新たなスコアを算出する変更スコア算出手段とをさらに具備し、前記評価算出手段は、前記評価対象取得部が取得した同一の評価対象についての1以上のスコア、および前記変更スコア算出手段が算出した同一の評価対象についての1以上の新たなスコアを用いて、当該評価対象についての評価を算出する情報処理装置である。
かかる構成により、対象物に対する評価の算出が、より精度高くできる。
また、本第十の発明の情報処理装置は、第一から第九いずれかの発明に対して、前記ユーザ情報格納部は、ユーザを識別するユーザ識別子と、前記ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、前記ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有するユーザ情報を2以上格納しており、前記文章群取得部は、前記評価対象に対応する用語と対になる文章群を、前記ユーザ情報格納部から取得する情報処理装置である。
かかる構成により、2以上のユーザに関する情報(ブログなど)を解析した結果、対象物についての1以上の権威者(専門家などと言っても良い)を決定し、権威者たちが記載した情報から評価を算出できる。
また、本第十一の発明の情報処理装置は、第十の発明に対して、ユーザ識別子と1以上の文章識別子と1以上の文章群を受信する情報受信部と、前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、用語の出現頻度を取得し、当該出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断部と、前記権威判断部が、前記ユーザが前記用語に対応する事象に対して権威者であると判断した場合、前記ユーザ識別子と、前記用語と、前記文章群識別子を用いて、ユーザ情報を構成するユーザ情報構成部と、前記ユーザ情報構成部が構成したユーザ情報を、前記ユーザ情報格納部に蓄積するユーザ情報蓄積部をさらに具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十二の発明の情報処理装置は、第十一の発明に対して、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、すべての文章群に対して、前記用語が出現する文章群の数を取得する文章群数取得手段と、前記出現頻度と前記文章群の数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十三の発明の情報処理装置は、第十一の発明に対して、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ユーザ識別子で識別されるユーザが記載したブログの更新頻度の情報を取得する更新頻度情報取得手段と、前記出現頻度と前記更新頻度の情報を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十四の発明の情報処理装置は、第十一の発明に対して、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログがリンクを張られている数である非リンク数を取得する非リンク数取得手段と、前記出現頻度と前記非リンク数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十五の発明の情報処理装置は、第十一の発明に対して、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログのトラックバック数を取得するトラックバック数取得手段と、前記出現頻度と前記トラックバック数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十六の発明の情報処理装置は、第十一の発明に対して、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログに対するコメント数を取得するコメント数取得手段と、前記出現頻度と前記コメント数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、権威者の決定が精度高くできる。
また、本第十七の発明の情報処理装置は、第十の発明に対して、前記権威判断部は、第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、前記文章群に含まれる文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、前記文分割制御手段が取得した第二文字列の種類から用語を含む第二文字列を特定し、当該第二文字列から用語を取得する用語取得手段と、前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語取得手段が取得した用語の出現頻度を取得する出現頻度取得手段と、前記出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する情報処理装置である。
かかる構成により、口語調の文が多いブログ等からでも、権威者の決定が精度高くできる。
また、本第十八の発明の情報処理装置は、第十七の発明に対して、前記文分割制御手段は、前記文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、前記要素分割手段が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、隣接する2つの、前記要素分割手段が分割した要素またはまとまり情報を読み出し、当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数取得する要素連結手段と、前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する情報処理装置である。
かかる構成により、口語調の文が多いブログ等からでも、権威者の決定が精度高くできる。
また、本第十九の発明の情報処理装置は、第一から第九いずれかの発明に対して、第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である知人情報を1以上の格納している知人管理部をさらに具備し、前記受付部は、ユーザ識別子を受け付け、前記文章群取得部は、前記受付部が受け付けたユーザ識別子と対になる第二のユーザ識別子を含むユーザ情報が有する文章群を取得する情報処理装置である。
かかる構成により、ユーザごとに、ユーザの知人、友人などの評価を知ることができる。
また、本第二十の発明の情報処理装置は、第一から第九いずれかの発明に対して、前記ユーザ情報格納部は、ユーザを識別するユーザ識別子と、用語と当該用語に対する前記ユーザの評価の組である1以上の用語評価情報である用語評価情報群と、文章群とを有するユーザ情報を2以上格納しており、前記受付部は、ユーザ識別子を受け付け、前記受付部が受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、前記受付部が受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する近似ユーザ識別子取得部をさらに具備し、前記文章群取得部は、前記近似ユーザ識別子取得部が取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を取得する情報処理装置である。
かかる構成により、ユーザと嗜好が合う人たちの評価を知ることができる。
本発明による情報処理システムによれば、ある対象物について、ある特定の層やグループに属する人たちの評価を知ることができる。
以下、情報処理システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、ある特定の層やグループに属する人たちの、ある事象(事象とは、商品、サービス、店舗、会社など、何でも良い。また、事象とは対象物、評価対象と言っても良い。)についての評価(評判と言っても良い)を知ることができる情報処理システム1について説明する。ここでは、ある特定の層やグループに属する人たちは、ある対象物についての権威者である。権威者とは、専門家、ある対象物について興味がある人などと同意義である、とする。そして、本実施の形態において、権威者の評価結果を用いて、ユーザに情報のレコメンドや、広告情報の送信を行う情報処理システム1について説明する。
本実施の形態において、ある特定の層やグループに属する人たちの、ある事象(事象とは、商品、サービス、店舗、会社など、何でも良い。また、事象とは対象物、評価対象と言っても良い。)についての評価(評判と言っても良い)を知ることができる情報処理システム1について説明する。ここでは、ある特定の層やグループに属する人たちは、ある対象物についての権威者である。権威者とは、専門家、ある対象物について興味がある人などと同意義である、とする。そして、本実施の形態において、権威者の評価結果を用いて、ユーザに情報のレコメンドや、広告情報の送信を行う情報処理システム1について説明する。
図1は、本実施の形態における情報処理システム1の概念図である。情報処理システム1は、1以上の情報端末11、1以上の情報管理装置12、および情報処理装置13を有する。情報端末11は、ユーザが情報を入力したり、情報を表示したりする端末である。情報端末11は、携帯端末、携帯電話、いわゆるパソコン、テレビ、ナビゲーション端末等、何でも良い。情報管理装置12は、1以上のユーザが記載するウェブページ(例えば、いわゆるブログなど)を格納しているサーバ装置、チャットシステムやSNS等におけるサーバ装置である。情報処理装置13は、ある事象について、権威者の評価を出力したりする装置である。情報処理装置13は、通常、Web上の装置であり、情報端末11と情報管理装置12と情報処理装置13は、インターネットにより相互に通信可能である。ただし、情報端末11と情報管理装置12と情報処理装置13は、情報のやりとりが可能であれば、専用回線などの他のネットワーク、または放送手段により接続された状態を有していても良い。
図2は、本実施の形態における情報処理システム1のブロック図である。また、図3、図4は、本実施の形態における情報処理装置13のブロック図である。図3は、ユーザ情報を蓄積する場合に、必要な構成要素を有する情報処理装置13のブロック図である。図4は、情報処理装置13がユーザ情報を用いて、情報端末11に情報を提供したり、広告情報を送信したりする場合に必要な構成要素を有する情報処理装置13のブロック図である。なお、情報処理装置13は、例えば、ユーザ情報を蓄積する装置と、ユーザ情報を用いて情報を提供する装置の、2つの装置に物理的に分離していても良い。
情報端末11は、端末入力受付部1101、端末情報送信部1102、端末情報受信部1103、端末処理部1104、端末出力部1105を具備する。
情報管理装置12は、文章群格納部1201、送信要求受信部1202、文章群読出部1203、文章群送信部1204を具備する。
情報処理装置13は、ユーザ情報格納部1301、評価情報格納部1302、広告情報格納部1303、受付部1304、文章群取得部1305、評価対象取得部1306、評価取得部1307、評価出力部1308、文選択部1309、出力情報出力部1310、広告情報取得部1311、広告情報出力部1312、情報受信部1313、権威判断部1314、ユーザ情報構成部1315、ユーザ情報蓄積部1316を具備する。
評価対象取得部1306は、辞書情報格納手段13061、文分割制御手段13062、評価対象取得手段13063を具備する。
文分割制御手段13062は、要素分割手段130621、要素連結手段130622、文字列取得手段130623を具備する。
評価取得部1307は、スコア取得手段13071、評価算出手段13072、変更情報格納手段13073、変更語取得手段13074、評価変更情報取得手段13075、変更スコア算出手段13076を具備する。
権威判断部1314は、辞書情報格納手段13061、文分割制御手段13062、用語取得手段13141、出現頻度取得手段13142、文章群数取得手段13143、更新頻度情報取得手段13144、非リンク数取得手段13145、トラックバック数取得手段13146、コメント数取得手段13147、権威判断手段13148を具備する。
なお、図3、図4のブロック図において、同一の構成要素(評価対象取得部1306が有する辞書情報格納手段13061と、権威判断部1314が有する辞書情報格納手段13061など)について、共用されることが好適であることは言うまでもない。
端末入力受付部1101は、ユーザからの入力を受け付ける。入力される情報や命令は、種々あり得る。例えば、端末入力受付部1101は、ウェブページ(ブログなど)にアクセスするために、URLを含むウェブページの送信要求を受け付ける。例えば、端末入力受付部1101は、ブログへの文章の入力、SNSへの文章の入力、電子メールシステムへの文章の入力などを受け付ける。例えば、端末入力受付部1101は、音声チャットを開始するための命令や、音声を受け付ける。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。端末入力受付部1101は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
なお、入力が音声入力の場合、情報端末11、情報管理装置12、情報処理装置13、または他の装置が、図示しない音声認識手段を有し、当該音声認識手段により、音声が文字列(文章)に変換されて、後述する処理が行われる。かかることは、他の実施の形態においても同様である。
端末情報送信部1102は、端末入力受付部1101が受け付けた情報や、端末処理部1104が処理した結果の情報を送信する。例えば、端末情報送信部1102は、端末入力受付部1101が受け付けたURLと、当該URLで特定されるウェブページの送信要求を、情報管理装置12に送信する。また、例えば、端末情報送信部1102は、端末入力受付部1101が受け付けた、評価者を特定する情報である評価者特定情報や用語を、情報処理装置13に送信する。端末情報送信部1102は、無線または有線の通信手段等で実現され得る。
端末情報受信部1103は、情報管理装置12や、情報処理装置13や、他の装置から、情報を受信する。端末情報受信部1103は、例えば、情報管理装置12から、例えば、ウェブページを受信する。また、端末情報受信部1103は、例えば、情報処理装置13から、ある事象についての専門家の評価や、知人・友人たちの評価や、自分と嗜好が近似する人たちの評価などを受信する。端末情報受信部1103は、無線または有線の通信手段等で実現され得る。
端末処理部1104は、端末情報受信部1103が受信した情報や、端末入力受付部1101が受け付けた情報等を処理する。端末処理部1104は、例えば、端末情報受信部1103が受信したウェブページ(例えば、HTMLやXMLで記述されている)を解釈し、表示するウェブページを構成する。かかる処理は、いわゆるWebブラウザの処理である。端末処理部1104は、通常、MPUやメモリ等から実現され得る。端末処理部1104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
端末出力部1105は、端末処理部1104が処理して得た情報や、端末入力受付部1101が受け付けた情報等を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力(音声出力を含む)、外部の装置への送信、記録媒体への蓄積、他の処理部への情報の受け渡し等を含む概念である。端末出力部1105は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部1105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
なお、端末出力部1105は、音声出力を行う場合、通常、図示しない音声合成手段を有する。かかることは、他の実施の形態においても同様である。
文章群格納部1201は、文章群(例えば、いわゆるウェブページやSNSのデータや電子メールのメールデータ、twitterに入力されたデータなど)を1以上、格納している。ウェブページは、例えば、HTMLやXMLなどの記述言語で記載されている。ウェブページは、通常、ファイルにより構成されている。また、一のウェブページは、通常、一のファイルで構成されているが、リンクにより関連付けられた複数のファイルで構成されていても良い。文章群格納部1201は、ハードディスク等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。
送信要求受信部1202は、文章群の送信要求を、情報端末11や情報処理装置13から受信する。送信要求受信部1202は、無線または有線の通信手段等で実現され得る。
文章群読出部1203は、送信要求受信部1202が受信した文章群の送信要求に応じて、文章群格納部1201から文章群を取得し、記憶媒体に配置する。文章群読出部1203は、通常、MPUやメモリ等から実現され得る。文章群読出部1203の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
文章群送信部1204は、文章群読出部1203が取得した文章群を、情報端末11や情報処理装置13に送信する。文章群送信部1204は、無線または有線の通信手段等で実現され得る。
ユーザ情報格納部1301は、ユーザ情報を格納し得る。ユーザ情報は、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有する。また、ユーザ情報は、ユーザを識別するユーザ識別子と、ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有する情報でも良い。また、ユーザ情報は、文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有しても良い。ここで、文章群とは、例えば、いわゆるブログのファイル、twitterのファイル、SNSのファイル、メール、チャットシステムで記載された情報などであり、例えば、いわゆるCGMである。また、文章群とは、通常、他のサーバ装置から取得された文の集合を含む。文章群に、テキスト以外の情報である静止画、動画などを含んでも良い。文章群の単位は、例えば、ファイル、ブログの1日単位の文の集合などである。また、権威であるとは、単に詳しいと思われること、興味があると推定されることなども含む趣旨である。また、用語とは、ユーザが記載した文章から抽出された用語である。文章群識別子とは、URL、ファイル名、SNSのユーザID、TwitterのユーザIDなどである。また、ユーザ情報格納部1301の文章群は、一時的に、格納されていても良い。ユーザ情報格納部1301は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。ユーザ情報格納部1301にユーザ情報が記憶される過程は問わない。例えば、記録媒体を介してユーザ情報がユーザ情報格納部1301で記憶されるようになってもよく、通信回線等を介して送信されたユーザ情報がユーザ情報格納部1301で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたユーザ情報がユーザ情報格納部1301で記憶されるようになってもよい。
評価情報格納部1302は、評価対象の良し悪しに関する用語である評価語を有する評価情報を1以上格納している。評価情報は、スコアを有しても良い。評価情報は、肯定的な用語(「良い」「好き」など)の集合、否定的な用語(「悪い」「嫌い」など)の集合、または、用語と肯定的/否定的のいずれかを示すフラグなどでも良い。評価語は、例えば、「好き」「嫌い」「良い」「悪い」「だめ」「素敵」「すばらしい」などである。スコアは、通常、「−5から+5」まで、等の数値であるが、「A、B、C」などのランクなどでも良い。評価情報格納部1302は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。評価情報格納部1302に評価情報が記憶される過程は問わない。例えば、記録媒体を介して評価情報が評価情報格納部1302で記憶されるようになってもよく、通信回線等を介して送信された評価情報が評価情報格納部1302で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された評価情報が評価情報格納部1302で記憶されるようになってもよい。
広告情報格納部1303は、広告情報を格納している。広告情報格納部1303は、通常、キーワード(用語)と対に広告情報を格納している。広告情報格納部1303は、通常、1以上のキーワードと広告情報の組を、複数組、格納している。広告情報格納部1303は、例えば、1以上のキーワードと広告情報のポインタの組を、複数組、格納していても良い。かかる場合、広告情報は、図示しない第三の装置(例えば、広告サーバ装置)に存在していても良い。キーワードは、ユーザが肯定的な感情を持っている対象物や用語でも良い。対象物とは、対象物を示す情報である。なお、広告情報が広告サーバ装置に存在する場合、図示しない手段により、広告情報が検索され、少なくとも、一時的に、広告情報が広告情報格納部1303に格納される。広告情報格納部1303は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。広告情報格納部1303に広告情報が記憶される過程は問わない。例えば、記録媒体を介して広告情報が広告情報格納部1303で記憶されるようになってもよく、通信回線等を介して送信された広告情報が広告情報格納部1303で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された広告情報が広告情報格納部1303で記憶されるようになってもよい。
受付部1304は、評価者を特定する情報である評価者特定情報を受け付ける。評価者特定情報は、例えば、1以上のユーザ識別子、「権威者」「自分と同様の嗜好のもの」「友人・知人」などの評価者の集合を示す識別子(名称やIDなど)などでも良い。評価者特定情報は、例えば、「権威者 用語」でも良い。かかる場合、当該用語に対応する権威者たちの中の評判に関する情報を出力することとなる。受付部1304は、2以上の評価者特定情報から、ユーザにより選択された一の評価者特定情報を受け付ける。評価者特定情報は、情報端末11のユーザが入力した情報でも良いし、予め決められているものでも良い。受付部1304は、評価対象をも受け付けても良い。評価対象とは、評価の対象を示す用語や句などである。受付部1304は、無線または有線の通信手段等で実現され得る。
文章群取得部1305は、評価者特定情報で特定される評価者が記載した文章群を、ユーザ情報格納部1301から取得する。文章群取得部1305が取得する文章群は、通常、一部の文章群である。文章群取得部1305は、評価対象に対応する用語(権威である対象を示す用語)と対になる文章群を、ユーザ情報格納部1301から取得しても良い。つまり、実施の形態1では、評価者は権威者である。
文章群取得部1305は、通常、MPUやメモリ等から実現され得る。文章群取得部1305の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
文章群取得部1305は、通常、MPUやメモリ等から実現され得る。文章群取得部1305の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価対象取得部1306は、文章群取得部1305が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する。また、評価対象取得部1306は、受付部1304が受け付けた情報から評価対象を取得しても良い。また、評価対象とは、ユーザから受け付けた評価の対象を示す用語や、ユーザから受け付けた用語から取得できる評価の対象を示す用語などである。評価対象取得部1306は、通常、MPUやメモリ等から実現され得る。評価対象取得部1306の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
辞書情報格納手段13061は、第一文字列と、文中における第一文字列の機能または種類を特定する情報である機能語情報と、第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している。辞書情報格納手段13061は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。辞書情報格納手段13061に辞書情報が記憶される過程は問わない。例えば、記録媒体を介して辞書情報が辞書情報格納手段13061で記憶されるようになってもよく、通信回線等を介して送信された辞書情報が辞書情報格納手段13061で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された辞書情報が辞書情報格納手段13061で記憶されるようになってもよい。なお、辞書情報格納手段13061、文分割制御手段13062により、機能素解析という自然言語処理が行われる。
文分割制御手段13062は、文章群に含まれる文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する。ここで、文章群に含まれる文とは、文章群に含まれるすべての文でも良いし、文章群に含まれる一部の文でも良い。文分割制御手段13062は、通常、MPUやメモリ等から実現され得る。文分割制御手段13062の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
文分割制御手段13062を構成する要素分割手段130621は、処理対象の文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、当該切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、辞書情報格納手段13061に当該文字列(この文字列は、第一文字列である。)が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が辞書情報格納手段13061に当該文字列が存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が辞書情報格納手段13061に存在するまで行い、または、文字列が辞書情報格納手段13061に存在しない場合には、先頭から1文字になるまでかかる判断を行い、文字列が辞書情報格納手段13061に存在すると判断した場合には、当該文字列(この文字列は、第一文字列である。)に対応する機能語情報と前接続記号と後接続記号とを、辞書情報格納手段13061から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する。
要素連結手段130622は、要素分割手段130621が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、当該連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、隣接する要素分割手段130621が分割した要素またはまとまり情報が有する、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号を読み出し、当該前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、連結可能な要素またはまとまり情報を一つの文字列にまとめて、複数の第二文字列を取得する。
文字列取得手段130623は、要素連結手段130622が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する。
要素分割手段130621、要素連結手段130622、および文字列取得手段130623は、通常、MPUやメモリ等から実現され得る。要素分割手段130621等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価対象取得手段13063は、文分割制御手段13062が取得した第二文字列の種類から評価対象を含む第二文字列を特定し、当該第二文字列から評価対象を取得する。評価対象取得手段13063は、例えば、第二文字列の種類が「主題」や「副題」である場合、当該第二文字列から自立語を取得し、当該自立語を評価対象とする。例えば、「A社は、非常に良い会社だ。」という文が、文分割制御手段13062により「主題「A社は」、動作状態「非常に良い会社だ」」に分割される。そして、評価対象取得手段13063は、主題「A社は」が評価の対象を含む第二文字列である、と特定する。次に、評価対象取得手段13063は、主題「A社は」の自立語「A社」を評価対象とする。また、評価対象取得手段13063は、受付部1304が受け付けた評価対象を取得しても良い。評価対象取得手段13063は、通常、MPUやメモリ等から実現され得る。評価対象取得手段13063の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価取得部1307は、評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語を用いて評価を取得する。また、評価取得部1307は、時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得しても良い。なお、時刻情報とは、ユーザにより文章群が作成されたり、ある装置に文章群が蓄積されたりした時刻を示す情報である。評価とは、評価を示すスコア、または、肯定的(例えば「1」)または否定的(例えば「0」)などでも良い。また、「評価対象を含む」とは、評価対象の類義語や同義語を含む、と解釈しても良い。かかる場合、例えば、評価取得部1307は、類義語辞書や同義語辞書を保持しており、評価対象をキーとして、かかる辞書を検索して、その類義語や同義語を得る処理も行う。したがって、評価対象は、広く、その類義語や同義語を含む、と解釈する。また、評価の遷移とは、評価遷移情報とも言い、例えば、単位時間(例えば、1日や1週間や1ヶ月など)あたりの評価(スコア)の変化量である。つまり、前日の評価が「−1」であり、本日の評価が「+4」である場合、評価取得部1307は、評価遷移情報(ここでは、1日あたりの変化量)を「+5」と算出する。さらに、時刻情報とは、絶対的な時刻の情報(「2008/3/15 13:28:56」や「2008/3/15」や「2008年3月」など)でも良いし、ある時点からの相対的な時の経過を示す情報(「1日」や「3時間」など)でも良い。評価取得部1307は、通常、MPUやメモリ等から実現され得る。評価取得部1307の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
スコア取得手段13071は、評価対象を含む第二文字列を有する文中の他の第二文字列の種類(たとえば、「動作・状態」)を用いて評価語を含み得る第二文字列(上記の例では、「非常に良い会社だ」)を特定し、当該第二文字列が有する評価語(例えば、「良い」)を評価情報格納部1302から検索し、当該検索した評価語と対になるスコアを評価情報格納部1302から取得する。スコア取得手段13071は、通常、MPUやメモリ等から実現され得る。スコア取得手段13071の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価算出手段13072は、評価対象取得手段13063が取得した同一の評価対象についての1以上のスコアを用いて、当該評価対象についての評価を算出する。また、評価算出手段13072は、評価対象取得部1306が取得した同一の評価対象についての1以上のスコア、および変更スコア算出手段13076が算出した同一の評価対象についての1以上の新たなスコアを用いて、当該評価対象についての評価を算出しても良い。評価算出手段13072は、通常、MPUやメモリ等から実現され得る。評価算出手段13072の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
変更情報格納手段13073は、評価を変更するための情報である変更情報を1以上格納している。変更情報は、変更語と評価変更情報の対である。変更語は、評価語に対する評価の変更を示す言い回しの用語である。変更語は、例えば、「でない」「じゃない」「とは言えない」「あまり」などである。つまり、「好き」というポジティブな評価語に「でない」という変更語が後続すると、評価はポジティブではなく、ネガティブとしなければならない。評価変更情報は、評価を変更するための情報である。また、具体的には、評価変更情報は、スコアを変更するための情報である、と言える。評価変更情報は、例えば、「−1」や「0.5」などの数値である。つまり、例えば、評価語「好き」に対して、スコア「+4」とする場合、変更語「でない」に対する評価変更情報は「−1」、変更語「あまり」に対する評価変更情報は「0.5」とする。そして、後述する変更スコア算出手段13076は、各数値を乗算し、「4×(−1)×(0.5)=−2」を算出する。ここで、「+5」は、非常にポジティブ、「−5」は非常にネガティブとして、「好きでない」は、「−2」であり、若干、ネガティブ、ということになる。なお、変更語として、評価を強める語(例えば、「非常に」「かなり」)、評価を弱める語(例えば、「あまり」)、評価を逆転させる語(例えば、「でない」)、評価を無効にする語(例えば、「であるとは言えない。」)などの種類がある。そして、評価を強める語は、例えば、強くする度合いにより、「1」より大きな評価変更情報が与えられ、評価を弱める語は、例えば、弱くする度合いにより、「1」より小さな評価変更情報が与えられ、評価を逆転させる語は、「−1」が与えられる。変更情報格納手段13073は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。変更情報格納手段13073に変更情報が記憶される過程は問わない。例えば、記録媒体を介して変更情報が変更情報格納手段13073で記憶されるようになってもよく、通信回線等を介して送信された変更情報が変更情報格納手段13073で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された変更情報が変更情報格納手段13073で記憶されるようになってもよい。
変更語取得手段13074は、変更情報格納手段13073の変更情報が有する変更語の情報を用いて、通常、評価語から所定以内の文字数の距離内にある変更語を取得する。変更語取得手段13074は、変更情報格納手段13073の変更情報が有する変更語の情報を用いて、距離を用いずに、評価語が含まれる文中にある変更語を取得しても良い。変更語取得手段13074は、通常、MPUやメモリ等から実現され得る。変更語取得手段13074の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価変更情報取得手段13075は、変更情報格納手段13073から、変更語取得手段13074が取得した変更語と対になる評価変更情報を取得する。評価変更情報取得手段13075は、通常、MPUやメモリ等から実現され得る。評価変更情報取得手段13075の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
変更スコア算出手段13076は、スコア取得手段13071が取得したスコアに対して、評価変更情報取得手段13075が取得した評価変更情報を用いて、スコアを変更し、新たなスコアを算出する。変更スコア算出手段13076は、通常、MPUやメモリ等から実現され得る。変更スコア算出手段13076の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価出力部1308は、評価取得部1307が取得した評価対象の評価を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他の処理部やプログラム等への処理結果の引渡し等を含む概念である。他の処理部やプログラム等への処理結果の引渡しとは、例えば、文選択部1309や広告情報取得部1311への処理結果の引渡し、である。評価出力部1308は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。評価出力部1308は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
文選択部1309は、評価出力部1308が出力した評価を受け付け、当該評価を用いて、評価対象が含まれる文(または文の一部)を取得する。文選択部1309は、例えば、評価出力部1308が出力した評価を受け付け、当該評価を用いて、評価が一定以上の高い評価に対応する文を取得しても良い。文選択部1309は、評価の時間的な遷移から、一定以上の評価の上昇が見られる評価対象が含まれる文の一部を取得しても良い。なお、「評価を用いて」とは、評価が一定以上に高い対象物文を取得するなどの意味である。文選択部1309は、通常、MPUやメモリ等から実現され得る。文選択部1309の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力情報出力部1310は、文選択部1309が取得した文を含む出力情報を構成し、出力する。出力情報は、文選択部1309が取得した文のみで構成されても良いし、文選択部1309が取得した文と、当該文を記載したユーザのユーザ識別子を有しても良い。また、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。出力情報出力部1310は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力情報出力部1310は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
広告情報取得部1311は、評価出力部1308が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を取得する。また、広告情報取得部1311は、評価の遷移から、一定以上の評価の上昇が見られる評価対象を選択し、当該評価対象に対応する広告情報を取得する。「評価を用いて」とは、通常、評価の高い評価対象に対応する広告情報を取得する趣旨である。広告情報とは、ある商品やサービスなどを宣伝するための情報であり、テキスト、静止画、動画、音声など、そのデータタイプは問わない。広告情報は、複数のタイプの情報を組み合わせた情報でも良い。広告情報取得部1311は、通常、MPUやメモリ等から実現され得る。広告情報取得部1311の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
広告情報出力部1312は、広告情報取得部1311が取得した広告情報を出力する。出力とは、通常、外部の装置(情報端末11など)への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。広告情報出力部1312は、例えば、無線または有線の通信手段等で実現され得る。
情報受信部1313は、ユーザ識別子と1以上の文章識別子と1以上の文章群を受信する。情報受信部1313は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
権威判断部1314は、情報受信部1313が受信した1以上の文章群から、用語の出現頻度を取得し、当該出現頻度を用いて、ユーザが用語に対応する事象に対して権威者であるか否かを判断する。ここで、用語とは、自立語、主題(準主題でも良い)を構成する用語、副題を構成する用語、主語を構成する用語、名詞、名詞句などである。また、用語の出現頻度とは、用語の出現回数、用語の出現割合(出現回数/全単語数など)、用語が出現するファイル数、用語が出現する文献数などである。また、ここでの「判断」は、出現頻度が大きければ大きいほど、ユーザが権威者であると判断される。例えば、権威判断部1314は、「権威度=f(出現頻度)」により権威度を算出する。そして、権威度が予め決められた閾値より大きい場合に、当該ユーザは、当該用語(用語が示す事項)について、権威者であると判断される。権威度を算出する関数(f)は、出現頻度をパラメータとする増加関数である。また、権威判断部1314は、出現頻度だけではなく、後述する「用語が出現する文章群の数」「ブログの更新頻度の情報」「ブログがリンクを張られている数である非リンク数」「ブログのトラックバック数」「ブログに対するコメント数」などを用いて、ユーザが用語に対応する事象に対して権威者であるか否かを判断することは好適である。権威判断部1314は、通常、MPUやメモリ等から実現され得る。権威判断部1314の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
用語取得手段13141は、文分割制御手段13062が取得した第二文字列の種類から用語を含む第二文字列を特定し、当該第二文字列から用語を取得する。用語取得手段13141は、通常、第二文字列の種類「主題」「準主題」または「副題」を構成する用語(通常、機能語を除く語)を取得する。なお、第二文字列の種類は、例えば、「主題」「準主題」「副題」「動作」「状態」などがある。また、用語取得手段13141は、評価対象取得手段13063と同様の機能でも良い。用語取得手段13141は、通常、MPUやメモリ等から実現され得る。用語取得手段13141の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出現頻度取得手段13142は、ユーザ識別子で識別されるユーザが記載した文章群から、用語の出現頻度を取得する。また、出現頻度取得手段13142は、情報受信部1313が受信した1以上の文章群であり、ユーザ識別子で識別されるユーザが記載した文章群から、用語取得手段13141が取得した用語の出現頻度を取得しても良い。出現頻度取得手段13142は、2種類以上の文章群(例えば、ブログとSNSに入力した文章群)から、用語の出現頻度を取得しても良い。用語取得手段13141が取得した用語は、一つの場合も、2以上の場合もあり得る。また、出現頻度とは、出現回数、出現割合(出現回数/全単語数など)、出現ファイル数、出現文献数などである。出現頻度取得手段13142は、1以上の文章群の中を、パターンマッチングすることにより、用語の出現頻度を取得しても良いし、文章群を形態素解析し、1以上の自立語(名詞、名詞句、動詞など)を取得し、用語の出現頻度を取得しても良い。文章群から用語の出現頻度を取得する技術は公知技術であるので詳細な説明を省略する。
文章群数取得手段13143は、すべての文章群に対して、用語が出現する文章群の数を取得する。文章群の単位は、ファイル、ブログの中の一日に記載された文の集合、SNSの一連の記載文の集合、チャットシステムにおける、継続した相手とのやりとりのために入力された文の集合、1通の電子メールなどである。用語が出現する文章群の数を取得する技術は公知技術であるので詳細な説明を省略する。
更新頻度情報取得手段13144は、ユーザ識別子で識別されるユーザが記載したブログの更新頻度の情報を取得する。更新頻度の情報を取得する技術は公知技術であるので詳細な説明を省略する。
非リンク数取得手段13145は、ブログがリンクを張られている数である非リンク数を取得する。非リンク数を取得する技術は公知技術であるので詳細な説明を省略する。
トラックバック数取得手段13146は、ブログのトラックバック数を取得する。ブログのトラックバック数を取得する技術は公知技術であるので詳細な説明を省略する。
コメント数取得手段13147は、ブログに対するコメント数を取得する。ブログに対するコメント数を取得する技術は公知技術であるので詳細な説明を省略する。
権威判断手段13148は、出現頻度と文章群の数を用いて、ユーザが用語に対応する対象に対して権威であるか否かを判断する。また、権威判断手段13148は、出現頻度と、文章群の数、更新頻度の情報、非リンク数、トラックバック数、コメント数のうちの1以上の情報を用いて、ユーザが用語に対応する事象に対して権威者であるか否かを判断することは好適である。権威判断手段13148は、出現頻度が大きければ大きいほど権威者であると判断し、用語が出現する文章群の数が少なければ少ないほど権威者であると判断する。例えば、権威判断手段13148は、演算式「権威度=f(出現頻度、用語が出現する文章群の数)」により権威度を算出し、当該権威度が、予め決められた閾値より大きい場合に、当該ユーザは権威者であると判断する。ここで、関数(f)は、出現頻度をパラメータとする増加関数、用語が出現する文章群の数をパラメータとする減少関数である。また、権威判断手段13148は、出現頻度が大きければ大きいほど権威者であると判断し、更新頻度情報が多ければ多いほど権威者であると判断する。例えば、権威判断手段13148は、演算式「権威度=f(出現頻度、更新頻度情報)」により権威度を算出し、当該権威度が、予め決められた閾値より大きい場合に、当該ユーザは権威者であると判断する。ここで、関数(f)は、出現頻度をパラメータとする増加関数、更新頻度情報をパラメータとする増加関数である。また、権威判断手段13148は、出現頻度が大きければ大きいほど権威者であると判断し、非リンク数が多ければ多いほど権威者であると判断する。例えば、権威判断手段13148は、演算式「権威度=f(出現頻度、非リンク数)」により権威度を算出し、当該権威度が、予め決められた閾値より大きい場合に、当該ユーザは権威者であると判断する。ここで、関数(f)は、出現頻度をパラメータとする増加関数、非リンク数をパラメータとする増加関数である。また、権威判断手段13148は、出現頻度が大きければ大きいほど権威者であると判断し、トラックバック数が多ければ多いほど権威者であると判断する。例えば、権威判断手段13148は、演算式「権威度=f(出現頻度、トラックバック数)」により算出し、権威度が、予め決められた閾値より大きい場合に、当該ユーザは権威者であると判断する。ここで、関数(f)は、出現頻度をパラメータとする増加関数、トラックバック数をパラメータとする増加関数である。また、権威判断手段13148は、出現頻度が大きければ大きいほど権威者であると判断し、コメント数が多ければ多いほど権威者であると判断する。例えば、権威判断手段13148は、演算式「権威度=f(出現頻度、コメント数)」により算出し、権威度が、予め決められた閾値より大きい場合に、当該ユーザは権威者であると判断する。ここで、関数(f)は、出現頻度をパラメータとする増加関数、コメント数をパラメータとする増加関数である。
文分割制御手段13062、用語取得手段13141、出現頻度取得手段13142、文章群数取得手段13143、更新頻度情報取得手段13144、非リンク数取得手段13145、トラックバック数取得手段13146、コメント数取得手段13147、および権威判断手段13148は、通常、MPUやメモリ等から実現され得る。文分割制御手段13062等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ユーザ情報構成部1315は、権威判断部1314が、ユーザが用語に対応する事象に対して権威者であると判断した場合、ユーザ識別子と、用語と、文章群識別子を用いて、ユーザ情報を構成する。なお、ユーザ情報は、文章群を有さなくても良い。文章群は、必要な場合に、文章群識別子を用いて、取得されれば良い。また、ユーザ情報構成部1315は、情報受信部1313が、ユーザ識別子と、文章群識別子と、文章群とのみを受信した場合、当該情報からユーザ情報(空の属性値があっても良い)を構成しても良い。ユーザ情報構成部1315は、通常、MPUやメモリ等から実現され得る。ユーザ情報構成部1315の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ユーザ情報蓄積部1316は、ユーザ情報構成部1315が構成したユーザ情報を、ユーザ情報格納部1301に蓄積する。ユーザ情報蓄積部1316は、通常、MPUやメモリ等から実現され得る。ユーザ情報蓄積部1316の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理システム1の動作について説明する。まず、情報端末11の動作について説明する。情報端末11の端末入力受付部1101は、ユーザからの入力を受け付ける。そして、端末情報送信部1102は、端末入力受付部1101が受け付けた入力に応じた指示や情報を、情報処理装置13に送信する。そして、端末情報受信部1103は、送信した指示や情報に対応した情報を、情報処理装置13から受信する。次に、端末処理部1104は、端末情報受信部1103が受信した情報を処理する。次に、端末出力部1105は、端末処理部1104が処理して得た情報等を出力する。
次に、情報管理装置12の送信要求受信部1202は、文章群の送信要求を情報処理装置13から受信する。次に、文章群読出部1203は、送信要求受信部1202が受信した文章群の送信要求に応じて、文章群格納部1201から文章群を取得する。そして、文章群送信部1204は、文章群読出部1203が取得した文章群を、情報処理装置13に送信する。
次に、情報処理装置13の動作について説明する。まず、情報処理装置13がユーザ情報を蓄積する動作について、図5のフローチャートを用いて説明する。
(ステップS501)情報受信部1313は、ユーザ識別子と1以上の文章群識別子と1以上の文章群を受信したか否かを判断する。文章群等を受信すればステップS502に行き、受信しなければステップS503に行く。なお、情報受信部1313は、いわゆるクローリングにより、ユーザ識別子で識別されるユーザごとに、1以上の文章群等を取得しても良い。なお、取得する文章群は、ブログ、SNSに入力された情報、電子メール等、問わない。取得する文章群は、通常、ユーザが第三者に読んでもらうために入力して、外部に発信される情報である。外部とは、不特定多数の場合もあるし、特定の人である場合もあり得る。
(ステップS502)権威判断部1314は、ステップS501で受信された文章群等を、一時的に蓄積する。なお、一時的な蓄積とは、権威判断部1314が保持している記憶媒体への蓄積でも良いし、ユーザ情報格納部1301への蓄積でも良い。なお、権威判断部1314は、ユーザ情報格納部1301へ文章群等を蓄積した場合、後述する権威判断等の処理のために、ユーザ情報格納部1301から文章群などを読み出すこととなる。ステップS501に戻る。
(ステップS503)権威判断部1314は、ユーザ情報を構成するタイミングであるか否かを判断する。ユーザ情報を構成するタイミングであればステップS504に行き、ユーザ情報を構成するタイミングでなければステップS501に戻る。なお、ユーザ情報を構成するタイミングとは、例えば、一定以上の文章群等を受信したタイミング、所定の時間間隔で、そのタイミングになった場合、ユーザからユーザ情報の構成指示を受け付けた場合などである。
(ステップS504)権威判断部1314は、カウンタiに1を代入する。
(ステップS505)権威判断部1314は、ユーザ情報を構成する対象のユーザであり、i番目のユーザが存在するか否かを判断する。i番目のユーザが存在すればステップS506に行き、i番目のユーザが存在しなければ処理を終了する。なお、i番目のユーザの存在の有無については、例えば、以下のように判断される。つまり、権威判断部1314は、ユーザ情報格納部1301にi番目のユーザ識別子が存在するか否かにより、i番目のユーザの存在の有無を判断する。
(ステップS506)権威判断部1314は、i番目のユーザの全文章群を読み出す。なお、読み出された全文章群が格納されていた記憶媒体は、権威判断部1314が保持している記憶媒体、またはユーザ情報格納部1301である。また、文章群を読み出した場合、ここでは、全部の文章群がコネクトされている、とする。さらに、コネクトされた2以上の文章群の区切りや、ある文が属する文章群(文章群識別子)は分かるもの、とする。
(ステップS507)権威判断部1314の文分割制御手段13062は、カウンタjに1を代入する。
(ステップS508)文分割制御手段13062は、ステップS506で読み出された全文章群の中に、j番目の文が存在するか否かを判断する。j番目の文が存在すればステップS509に行き、j番目の文が存在しなければステップS516に行く。
(ステップS509)文分割制御手段13062は、j番目の文に対して、文を分割する処理を行う。この処理は、機能素解析の処理である。機能素解析により、文は、例えば、「主題」、「副題」、「動作」または「状態」などに分割される。機能素解析の詳細について、図6のフローチャートを用いて説明する。
(ステップS510)用語取得手段13141は、ステップS509で分割して取得した、1以上の文の要素から、文の要素の種類「主題」または「準主題」または「副題」に対応する要素を取得し、当該要素から、用語を取得する。なお、文の要素から用語を取得する方法は、例えば、要素から機能語(第一文字列)を除くことにより用語を取得したり、要素の中の名詞のみを取得して用語としたりする方法がある。ただし、この要素から用語を取得する方法は問わない。また、用語の取得は、形態素解析等を用いた、他の自然言語処理の方法によっても良いし、ユーザから与えられても良いし、図示しない記憶媒体に格納されている用語データベースから読み出しても良い。
(ステップS511)権威判断部1314は、ステップS510で取得した「用語」に対して、i番目のユーザが権威者であるか否かを判断するための処理を行う。かかる処理を権威判断処理という。権威判断処理は、ここでは、ステップS510で取得した「用語」に対して、i番目のユーザの権威度(権威の度合い)を算出する処理である。権威判断処理について、図9のフローチャートを用いて詳細に説明する。
(ステップS512)ユーザ情報構成部1315は、ステップS511における権威判断処理の結果、ステップS510で取得した「用語」に対して、i番目のユーザが権威者であるか否かを判断する。i番目のユーザが権威者であればステップS513に行き、i番目のユーザが権威者でなければステップS515に行く。
(ステップS513)ユーザ情報構成部1315は、ユーザを識別するユーザ識別子と、ステップS510で取得された用語と、文章群と、文章群識別子を用いて、ユーザ情報を構成する。ユーザ識別子と、文章群と、文章群識別子がすでに、ユーザ情報格納部1301に蓄積されている場合、ユーザ情報構成部1315は、用語を取り出すだけ等の処理でも良い。ユーザ情報構成部1315は、ステップS511で取得された権威度を有するユーザ情報を構成しても良い。この段階で、ユーザ情報は用語のみ、または用語と権威度のみでも良い。また、ユーザ情報構成部1315は、j番目の文を含む文章群、および文章群識別子を取得して、ユーザ情報を構成しても良い。
(ステップS514)ユーザ情報蓄積部1316は、ステップS513で構成されたユーザ情報を、ユーザ情報格納部1301に蓄積する。なお、ユーザ識別子と、文章群と、文章群識別子がすでに、ユーザ情報格納部1301に蓄積されている場合、ユーザ情報蓄積部1316は、用語のみ、または用語と権威度のみを、対応するユーザ識別子と文章群等と対になるように、ユーザ情報格納部1301に蓄積することは好適である。つまり、ユーザ情報構成部1315とユーザ情報蓄積部1316に処理により、結果として、ユーザ識別子と、用語と、文章群と、文章群識別子を有するユーザ情報が蓄積されれば良い。
(ステップS515)文分割制御手段13062は、カウンタjを1、インクリメントする。ステップS508に戻る。
(ステップS516)権威判断部1314は、カウンタiを1、インクリメントする。ステップS505に戻る。
なお、図5のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS509の機能素解析の詳細について、図6のフローチャートを用いて説明する。
(ステップS601)要素分割手段130621は、カウンタiに1を代入する。
(ステップS602)要素分割手段130621は、処理対象の文(図5のフローチャートにおけるj番目の文)の中に、i番目の文字が存在するか否かを判断する。i番目の文字が存在すればステップS603に行き、i番目の文字が存在しなければステップS613に行く。
(ステップS603)要素分割手段130621は、処理対象の文の中の、i番目の文字から(i+n)番目の文字までの文字列を取得し、バッファ上に置く。nは、固定の数であり、例えば、「5」である。なお、処理対象の文に、i番目の文字から(i+n)番目の文字まで存在しない場合、要素分割手段130621は、i番目の文字から文の最終文字までを取得し、バッファ上に置く。つまり、要素分割手段130621は、i番目の文字から(i+n)番目以下の文字までの文字列を取得し、バッファ上に置く。
(ステップS604)要素分割手段130621は、ステップS603でバッファ上に配置した文字列を、辞書情報格納手段13061に検索しにいく。
(ステップS605)要素分割手段130621は、ステップS604における検索結果において、ステップS603でバッファ上に配置した文字列が、辞書情報格納手段13061に存在したか否かを判断する。文字列が存在すればステップS610に行き、文字列が存在しなければステップS606に行く。なお、文字列が存在する場合とは、バッファ上に配置した文字列と一致する文字列が、辞書情報が有する第一文字列に存在する場合である。
(ステップS606)要素分割手段130621は、ステップS603でバッファ上に配置した文字列の長さが、1文字であるか否かを判断する。1文字であればステップS608に行き、1文字でなければステップS607に行く。
(ステップS607)要素分割手段130621は、ステップS603でバッファ上に配置した文字列から最後の文字を削除し、一文字少なくして、i番目から文字列を取得し、バッファ上に配置する。なお、要素分割手段130621は、単に、バッファ上の最終文字を消去するだけでも良い。ステップS604に戻る。
(ステップS608)要素分割手段130621は、i番目の文字に未知語であることを示す情報である「未知語」フラグを付与する。「「未知語」フラグを付与する」とは、i番目の文字が他の文字または文字列と区別できれば良く、例えば、他の文字または文字列に何らかのフラグを付与し、未知語であるi番目の文字には、何も付与しなくても良い。さらに、未知語を格納するバッファがあり、そのバッファに未知語であるi番目の文字を書き込む処理も、「未知語」フラグを付与する処理とする。
(ステップS609)要素分割手段130621は、カウンタiを1、インクリメントする。ステップS602に戻る。
(ステップS610)要素分割手段130621は、バッファ上に配置した文字列と一致する第一文字列と対になる機能語情報、前接続記号、および後接続記号を、辞書情報格納手段13061から読み出し、メモリ上に配置する。
(ステップS611)要素分割手段130621は、バッファ上に配置した文字列(1文字の場合もある)に対して、ステップS610で読み出した機能語情報、前接続記号、および後接続記号を付与する。
(ステップS612)要素分割手段130621は、カウンタiに、「i+文字列の文字数」を代入する。ステップS602に戻る。なお、「文字列の文字数」の「文字列」は、バッファ上に配置した文字列である。
(ステップS613)要素連結手段130622は、要素分割手段130621が分割した文字列のうち、連結可能な文字列を連結する。かかる連結処理について、図7のフローチャートを用いて、詳細に説明する。
(ステップS614)文字列取得手段130623は、要素連結手段130622が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する。かかる処理(文分割処理、という)について、図8のフローチャートを用いて、詳細に説明する。
なお、図6のフローチャートにおいて、機能素解析の手法を用いた自然言語解析処理を行った。しかし、文に対して、形態素解析を行い、例えば、名詞や、主語を構成する名詞を取得して、当該名詞の用語を「用語」としても良い。その他、用語の取得方法は何でも良い。なお、文を形態素解析し、主語や、用語を抜き出す技術は、公知技術であるので、詳細な説明を省略する。
次に、ステップS613の連結処理について、図7のフローチャートを用いて、詳細に説明する。
(ステップS701)要素連結手段130622は、要素分割手段130621が未知語フラグ(未知語情報の一種)を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグを付与した連続する未知語であり、ひらがなではない文字を連結し文字列を構成する。
(ステップS702)要素連結手段130622は、ステップS701で連結した文字列、または連結されなかった未知語の文字に対して、まとまり情報を付与する。まとまり情報とは、まとまりであることを示す文字列の種類を特定する情報である。まとまり情報は、機能語情報の一種である。まとまり情報は、文字列に付与される未知語フラグでも良い。
(ステップS703)要素連結手段130622は、カウンタiに1を代入する。
(ステップS704)要素連結手段130622は、処理対象の文中に、(i+1)番目の、まとめられた文字列(1文字の場合もある)が存在するか否かを判断する。(i+1)番目の文字列が存在すればステップS705に行き、(i+1)番目の文字列が存在しなければ上位処理にリターンする。
(ステップS705)要素連結手段130622は、i番目の文字列の後接続記号と、(i+1)番目の文字列の前接続記号を読み出し、メモリ上に配置する。なお、i番目の文字列の後接続記号は、i番目の文字列の最後の第一文字列と対になる後接続記号である。また、(i+1)番目の文字列の前接続記号は、(i+1)番目の文字列の先頭の第一文字列と対になる前接続記号である。
(ステップS706)要素連結手段130622は、ステップS705で読み出したi番目の文字列の後接続記号と、(i+1)番目の文字列の前接続記号から、i番目の文字列と(i+1)番目の文字列が連結可能であるか否かを判断する。なお、2つの連続する文字列が連結可能であるか否かは、前出の後接続記号と、後出の前接続記号から判断可能であり、要素連結手段130622は、例えば、連結可能な2つの文字列の後接続記号と前接続記号の組の情報(ルール)を保持している。
(ステップS707)要素連結手段130622は、ステップS706における判断結果が、連結可能である、との判断であればステップS708に行き、連結可能でない、との判断であればステップS709に行く。
(ステップS708)要素連結手段130622は、i番目の文字列と、(i+1)番目の文字列を連結する。文字列の連結とは、連結した文字列をバッファに書き込む処理でも良いし、2つの文字列をリンク付けする処理等でも良い。
(ステップS709)要素連結手段130622は、カウンタiを1、インクリメントする。ステップS704に戻る。
次に、ステップS714の文分割処理について、図8のフローチャートを用いて、詳細に説明する。
(ステップS801)文字列取得手段130623は、カウンタiに1を代入する。
(ステップS802)文字列取得手段130623は、処理対象の文の中に、i番目の第二文字列が存在するか否かを判断する。i番目の第二文字列が存在すればステップS803に行き、i番目の第二文字列が存在しなければ上位処理にリターンする。
(ステップS803)文字列取得手段130623は、i番目の第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、各第二文字列の種類を特定する情報を決定する。具体的には、例えば、第二文字列の種類は、例えば、「主題」、「準主題」、「副題」、「動作」、または「状態」であり、第二文字列の最後尾の第一文字列に対応する機能語情報が「動作」または「状態」であれば、第二文字列の種類は「動作」または「状態」であると、文字列取得手段130623は決定する。また、第二文字列の最後尾の第一文字列に対応する後接続記号が「主題」または「準主題」または「副題」を示す記号である場合は、第二文字列の種類は「主題」または「準主題」または「副題」であると、文字列取得手段130623は決定する。そして、文字列取得手段130623は、i番目の第二文字列と、第二文字列の種類を特定する情報を取り出し、メモリ上に配置する。
(ステップS804)文字列取得手段130623は、カウンタiを1、インクリメントする。ステップS802に戻る。
次に、ステップS511の権威判断処理について、図9のフローチャートを用いて詳細に説明する。
(ステップS901)出現頻度取得手段13142は、i番目のユーザが記載した(i番目のユーザ識別子と対になる)文章群の中での、ステップS510で取得された用語の出現頻度(例えば、出現回数や出現する文章群数)を取得し、メモリ上に配置する。出現頻度を「a」とする。
(ステップS902)文章群数取得手段13143は、全ユーザが記載した全文章群中での、ステップS510で取得された用語が出現する文章群数(s)を取得し、メモリ上に配置する。
(ステップS903)コメント数取得手段13147は、i番目のユーザが記載したブログである文章群に対する、他のユーザからのコメント数(c)を取得し、メモリ上に配置する。
(ステップS904)トラックバック数取得手段13146は、i番目のユーザが記載したブログである文章群に対する、トラックバック数(t)を取得し、メモリ上に配置する。
(ステップS905)非リンク数取得手段13145は、i番目のユーザが記載したブログである文章群に対する、非リンク数(l)を取得し、メモリ上に配置する。非リンク数取得手段13145は、通常、他の文章群(ブログ)
(ステップS906)更新頻度情報取得手段13144は、i番目のユーザが記載したブログである文章群の更新頻度(u)を取得し、メモリ上に配置する。更新頻度(u)は、1ヶ月内での更新回数でも良いし、1回あたり更新期間をパラメータとする情報(更新が頻繁にされるほど、大きくなる、とする)などでも良い。
(ステップS907)権威判断手段13148は、a、s、c、t、l、uのうちの1以上の情報を用いた、権威度の算出のための演算式の情報を読み出す。
(ステップS908)権威判断手段13148は、ステップS907で読み出した演算式に対して、取得したa、s、c、t、l、uのうちの1以上の情報を代入し、権威度を算出する。
(ステップS909)権威判断手段13148は、ステップS908で算出した権威度が閾値(予め格納されている)と比較して、大きいか否かを判断する。権威度が閾値より大きければ、値「権威者(例えば、「1」)」をリターンし、大きくなければ値「非権威者(例えば、「0」)」をリターンする。
なお、図9のフローチャートにおいて、a、s、c、l、uのうち、どの情報を用いて権威度を算出しても良い。また、a、s、c、l、uのうち、少なくとも「a」を使用して、権威度を算出することが好ましい。
また、図9のフローチャートにおいて、「a」と「s」を用いて、いわゆる「tf−idf」を算出し、「tf−idf」を用いて権威度を算出することは好適である。なお、「tf−idf」は、公知技術であり、文章中の特徴的な単語(重要とみなされる単語)を抽出するためのアルゴリズムであり、主に情報検索や文章要約などの分野で利用される。tf−idfは、tf(単語の出現頻度)とidf(逆出現頻度)の二つの指標で計算されるものである。「tf−idf」は、公知技術であるので、詳細な説明は省略する。
次に、情報処理装置13が、ユーザからの要求に従って、評価を出力する動作について、図10のフローチャートを用いて説明する。
(ステップS1001)受付部1304は、評価者特定情報を受け付けたか否かを判断する。評価者特定情報を受け付ければステップS1002に行き、評価者特定情報を受け付けなければステップS1001に戻る。
(ステップS1002)文章群取得部1305は、ステップS1001で受け付けた評価者特定情報で特定される評価者が記載した文章群を、ユーザ情報格納部1301から取得する。なお、評価者特定情報がある用語に対応する事象の権威者を特定する情報である場合、例えば、文章群取得部1305は、評価者特定情報に含まれる用語と対になる文章群をユーザ情報格納部1301から取得する。
(ステップS1003)評価対象取得部1306は、カウンタiに1を代入する。
(ステップS1004)評価対象取得部1306は、ステップS1002で取得した文章群の中に、i番目の文章群が存在するか否かを判断する。i番目の文章群が存在ずればステップS1005に行き、i番目の文章群が存在しなければステップS1022に行く。
(ステップS1005)評価対象取得部1306は、i番目の文章群を取得する。例えば、評価対象取得部1306は、i番目の文章群(ファイル)をオープンする。
(ステップS1006)評価対象取得部1306は、解析対象文取得処理を行う。解析対象文取得処理について、図11のフローチャートを用いて説明する。
(ステップS1007)文分割制御手段13062は、カウンタjに1を代入する。
(ステップS1008)文分割制御手段13062は、評価対象取得部1306が取得した解析対象文の中に、j番目の文が存在するか否かを判断する。j番目の文が存在すればステップS1009に行き、j番目の文が存在しなければステップS1021に行く。
(ステップS1009)文分割制御手段13062は、評価対象取得部1306が取得した解析対象文の中のj番目の文を読み出し、メモリ上に配置する。
(ステップS1010)文分割制御手段13062は、j番目の文の中に、評価対象を示す文字列が含まれるか否かを検査する。この検査は、通常、j番目の文における、評価対象のパターンマッチングである。
(ステップS1011)文分割制御手段13062は、j番目の文の中に、評価対象を示す文字列が含まれる場合はステップS1012に行き、含まれない場合はステップS1020に行く。
(ステップS1012)文分割制御手段13062は、機能素解析処理を行う。機能素解析処理の詳細について、図6から図9のフローチャートを用いて説明した。
(ステップS1013)評価対象取得部1306は、文分割制御手段13062が取得した第二文字列の種類から評価の対象を含む第二文字列を特定し、当該第二文字列から評価対象を取得する。なお、評価対象は与えられているので、本ステップにおいて、評価対象取得部1306は、与えられている評価対象を取得するだけでも良い。
(ステップS1014)スコア取得手段13071は、評価対象を含む第二文字列を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列を取得する。なお、「状態」は、「動作状態」でも良い。
(ステップS1015)スコア取得手段13071は、ステップS1014で取得した第二文字列中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を各々読み出し、当該各評価語をキーとして、第二文字列を検索する。
(ステップS1016)スコア取得手段13071は、ステップS1015における検索の結果、第二文字列が評価語を含むか判断する。評価語を含む場合はステップS1017に行き、評価語を含まない場合はステップS1020に行く。
(ステップS1017)スコア取得手段13071は、スコア取得処理を行う。スコア取得処理の詳細について、図12のフローチャートを用いて説明する。
(ステップS1018)変更スコア算出手段13076は、スコア変更処理を行う。スコア変更処理の詳細について、図13のフローチャートを用いて説明する。
(ステップS1019)変更スコア算出手段13076は、算出したスコアを、メモリ上に一時格納する。
(ステップS1020)情報処理装置13は、カウンタjを1、インクリメントする。ステップS1008に戻る。
(ステップS1021)情報処理装置13は、カウンタiを1、インクリメントする。ステップS1004に戻る。
(ステップS1022)評価取得部1307は、ステップS1019で一時格納した1以上のスコアを用いて、評価対象についての評価(代表値)を算出する。なお、ステップS1019で一時格納した1以上のスコアは、評価算出手段13072が取得した同一の評価対象についての1以上のスコア、または変更スコア算出手段13076が算出した1以上のスコア、または評価算出手段13072が取得した同一の評価対象についての1以上のスコアと変更スコア算出手段13076が算出した1以上のスコアである。評価取得部1307は、例えば、多数のスコアの平均値や中央値や合計を算出する。その他、多数のスコアから代表値を算出する演算方法は問わない。
(ステップS1023)評価出力部1308は、評価対象と、ステップS1022で算出した評価を対にして、記録媒体に蓄積する。処理を終了する。
なお、図10のフローチャートにおいて、評価対象に対する評価語が、一文中に複数存在する場合には、例えば、複数の評価語に対する複数のスコアを用いて、処理を行うことが好適である。
また、図10のフローチャートにおいて、評価対象のゆらぎを認識し、ゆらいでいる2種類以上の評価対象を同じ評価対象として取り扱うことは好適である。つまり、例えば、すべて全角文字、大文字からなる「商品XYZ」と、アルファベットが半角文字、大文字からなる「商品XYZ」と、全角文字、小文字からなる「商品xyz」などの表現のゆらぎを考慮して、取り扱うことは好適である。
図10のフローチャートにおいて、評価対象の類義語、関連語(例えば、「味」「料理」「ラーメン」などの料理の種類)を同じ評価対象であるとして、取り扱うことは好適である。かかる場合、類義語辞書、概念辞書などが格納されている。
また、図10のフローチャートにおいて、文章群の信頼度により、評価に重み付けをし、その後、変更語によるスコアの変更処理を行った。しかし、上記手順を逆にするなど、他の処理手順でも良い。
また、図10のフローチャートにおいて、ステップS1006の解析対象文取得処理は、必須の処理ではない。
また、図10のフローチャートにおいて、一の評価対象が決められて、与えられた。しかし、例えば、多数の文章群から評価対象を自動取得しても良い。例えば、文分割制御手段13062が分割し、取得した第二文字列の中の「主題」または/および「副題」が有する名詞句(機能語を除いた文字列)を評価対象として、自動取得することは好適である。
また、図10のフローチャートのステップS1023において、評価出力部1308は、評価対象と評価を対にして、記録媒体に蓄積した。しかし、評価出力部1308は、評価対象と評価を情報端末11に送信しても良い。また、評価出力部1308は、評価対象と評価を文選択部1309に渡し、文選択部1309は、当該評価を用いて、評価対象が含まれる文を、文章群から取得し、出力情報出力部1310が、当該文を含む出力情報を構成し、情報端末11に送信しても良い。また、広告情報取得部1311は、評価出力部1308が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を取得し、広告情報出力部1312は、広告情報取得部1311が取得した広告情報を情報端末11に送信しても良い。
次に、ステップS1006の解析対象文取得処理について、図11のフローチャートを用いて説明する。
(ステップS1101)評価対象取得部1306は、i番目の文章群の識別情報(例えば、URLやIRLやサイト名やファイル名など)を取得する。
(ステップS1102)評価対象取得部1306は、ステップS1101で取得した識別情報に対応する抽出情報を、図示しない抽出タグ情報格納部から検索する。例えば、評価対象取得部1306は、ステップS1101で取得した識別情報が管理されているか否かを検索する。なお、抽出タグ情報格納部は、抽出タグ情報を格納している。抽出タグ情報は、識別情報と抽出情報の対からなる。識別情報は、文章群を識別する識別情報であり、例えば、URLや、文章群が格納されているサイトの名称や、文章群の種類を示す情報や、文章群が記載されている言語などである。抽出情報は、タグを用いて構造化されている文章群から、一部の文章を抽出するための情報であり、例えば、抽出すべき1以上の文が特定されるタグである。例えば、抽出情報が「<div class=ebody」である場合、この「<div class= ebody」を含むタグから、「</div>」タグまでの文章が抽出される文章である。抽出タグ情報格納部は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
(ステップS1103)評価対象取得部1306は、抽出タグ情報格納部に、ステップS1101で取得した識別情報に対応する抽出情報が存在するか否かを判断する。抽出情報が存在すればステップS1104に行き、抽出情報が存在しなければステップS1106に行く。
(ステップS1104)評価対象取得部1306は、抽出タグ情報格納部から、ステップS1101で取得した識別情報に対応する抽出情報を読み出す。
(ステップS1105)評価対象取得部1306は、ステップS1104で取得した抽出情報を用いて、当該抽出情報で特定される1以上の文を、文章群から抽出する。例えば、抽出情報が「タグ<XXX>」である場合、評価対象取得部1306は、文章群から、タグ<XXX>と、タグ</XXX>で囲まれている文(情報)を読み出し、メモリ上に配置する。かかるメモリ上に配置した1以上の文が、解析対象文である。なお、評価対象取得部1306は、取得した情報からタグを除いて、文のみを取得することは好適である。上位関数にリターンする。
(ステップS1106)評価対象取得部1306は、i番目の全文章を解析対象文として取得する。上位関数にリターンする。なお、例えば、文章群がHTMLファイルである場合、評価対象取得部1306は、全文章中からタグを除いたテキストファイルに変換することは好適である。
次に、ステップS1017のスコア取得処理の詳細について、図12のフローチャートを用いて説明する。
(ステップS1201)スコア取得手段13071は、評価情報格納部1302を検索し、評価語に対応するスコアを読み出し、メモリ上に配置する。
(ステップS1202)スコア取得手段13071は、解析対象のi番目の文章群に対する信頼度が存在するか否か、ユーザ情報格納部1301を検索する。
(ステップS1203)スコア取得手段13071は、ステップS1202で行った検索処理の結果、信頼度が存在するか否かを判断する。信頼度が存在すればステップS1204に行き、信頼度が存在しなければステップS1206に行く。なお、信頼度は、後述する権威度でも良い。
(ステップS1204)スコア取得手段13071は、ユーザ情報格納部1301からi番目の文章群に対する信頼度を読み出す。
(ステップS1205)スコア取得手段13071は、ステップS1204で読み出した信頼度を用いて、ステップS1201で読み出したスコアを変更し、第二スコアを算出する。なお、信頼度は、例えば、重みであり、スコア取得手段13071は、演算式「スコア×信頼度」により、第二スコアを算出する。また、かかる場合、スコア取得手段13071は、演算式「スコア×信頼度」の情報を予め格納しており、かかる演算式の情報を読み出し、「スコア」および「信頼度」を演算式に代入し、演算を実行し、第二スコアを得る。
(ステップS1206)スコア取得手段13071は、ステップS1205で算出した第二スコア、またはステップS1201で読み出したスコアに、スコアを決定する。上位関数にリターンする。
なお、図12のフローチャートにおいて、一度取得した文章群に対する信頼度は、再度、検索して取得する必要はない。一度取得した文章群に対する信頼度をメモリ上に配置しておき、同一の文章群の信頼度を使用する場合には、メモリから読み出せば良い。
ステップS1018のスコア変更処理の詳細について、図13のフローチャートを用いて説明する。
(ステップS1301)変更語取得手段13074は、変更情報格納手段13073の変更情報が有する変更語の情報を用いて、評価語の前後の所定以内の文字数の距離内に、変更語が存在するか否かを判断する。
(ステップS1302)変更語取得手段13074は、ステップS1301で変更語が存在すると判断した場合はステップS1303に行き、存在しないと判断した場合は上位関数にリターンする。
(ステップS1303)変更語取得手段13074は、変更情報格納手段13073の変更情報が有する変更語にマッチする評価語の前後の所定以内の文字数の距離内の文字列をすべて取得し、メモリ上に配置する。
(ステップS1304)評価変更情報取得手段13075は、ステップS1303で取得された1以上の変更語と対になる各評価変更情報を、変更情報格納手段13073から取得する。
(ステップS1305)変更スコア算出手段13076は、スコア取得手段13071が取得したスコアに対して、ステップS1304で取得した1以上の評価変更情報を用いて、スコアを変更し、新たなスコアを算出する。変更スコア算出手段13076は、例えば、「スコア×1番目の評価変更情報×2番目の評価変更情報×・・・×n番目の評価変更情報」により、新たなスコアを算出する。上位関数にリターンする。その際、変更語が存在する場合には新たなスコアを、または変更語が存在しない場合には元のスコアをリターンする。
なお、図13のフローチャートにおいて、変更語取得手段13074は、評価語の前後の所定以内の文字数の距離内に、変更語が存在するか否かを判断した。しかし、変更語の存在を検索する対象の文字列は、例えば、評価語が含まれる第二文字列など、他のアルゴリズムや、他の範囲でも良い。
以下、本実施の形態における情報処理システム1の具体的な動作について説明する。情報処理システム1の概念図は図1である。
まず、情報処理装置13が、ユーザ情報を蓄積する動作について説明する。今、辞書情報格納手段13061には、図14に示す辞書情報管理表が格納されている。辞書情報管理表は、「第一文字列」「前接続記号」「後接続記号」「機能語情報」の属性を有するレコードを1以上格納している。
図14の「前接続記号」の「−&」は、前に、未知語情報で識別される未知語や、「object」で識別される対象物などが連結されることを示す。「前接続記号」は、他にも「&&」などがあり、「&&」は、前に、「名前」や、未知語や、「object」で識別される対象物などが連結されることを示す。「名前」とは、登録している人や物などの名前である。
また、「後接続記号」の「s%」は、区切りになり得て、「副題」となり得ることを示す。また、「後接続記号」の「&&」は、後に、「名前」や、未知語情報で識別される未知語や、「object」で識別される対象物などが連結されることを示す。また、「後接続記号」の「m%」は、区切りになり得て、「主題」となり得ることを示す。また、「後接続記号」の「n%」は、区切りになり得て、「主題」となり得ることを示す。「m%」と「n%」は、両方とも「主題」となり得るが、「m%」の方が主題になる優先度は高い、ことを意味する。また、「後接続記号」の「−−」は、「action」で識別される文字列が連結されることを示す。また、「後接続記号」の「%=」は、区切りになり得て、かつ、「object」で識別される対象物や「名前」などが連結されることを示す。また、「後接続記号」の「o%」は、区切りになり得て、「準主題」となり得ることを示す。また、「後接続記号」の「%%」は、強制的な区切りであることを示す。
また、「機能語情報」の「object」は、対象物を示す。また、「機能語情報」の「action」は、動作を示す。さらに、「機能語情報」の「state」は、状態を示す。
また、ユーザ情報格納部1301は、図15に示すユーザ情報管理表を保持している、とする。ユーザ情報管理表は、「ID」「ユーザ識別子」「権威用語」「権威度」「文章群識別子」を有するレコードを、1以上保持している。「ユーザ識別子」は、ユーザを識別する情報であり、URL、SNSやTwitterなどのシステムが管理しているID、メールアドレスなどである。「権威用語」は、そのユーザが権威者(専門家、評論家なども含む概念)であると判断される対象を示す用語である。権威度は、権威(専門などの意義も含む)の度合いであり、ここでは、100より大きい数値を採り得る、とする。また、権威度は、値が大きいほど、権威の度合いが大きい、とする。「文章群識別子」は、ユーザが権威者であることを判断された元になる文章群であり、ユーザが記載した文章群を識別する情報である。「文章群識別子」は、URLや、SNSのIDなど、文章群にアクセスするための情報である。ユーザ情報管理表の中に、文章群は含まれていないが、文章群識別子から文章群にはアクセス可能であるので、ユーザ情報は、文章群を含む、と考える。また、図15に示すユーザ情報管理表において、一のユーザ識別子と対になる権威用語が複数でも良い。
そして、情報処理装置13の情報受信部1313は、ユーザ識別子「5544」、文章群識別子「http://www.5544.xxx.jp/」、図16に示す文章群(ブログ)を受信した、とする。
次に、権威判断部1314は、受信されたユーザ識別子「5544」、文章群識別子「http://www.5544.xxx.jp/」、図16に示す文章群を、バッファに一時的に蓄積する。
次に、ここでは、権威判断部1314は、文章群を受信した場合に、ユーザ情報を構成するものとする。そして、権威判断部1314は、以下のように、ユーザ情報を構成する。
つまり、権威判断部1314は、受信された図16の文章群をメモリ上に読み出す。そして、文分割制御手段13062は、以下のように文章群に含まれる文を処理していく。
まず、文分割制御手段13062は、1番目の文「ラーメンがいいなあ。」を取得する。次に、文分割制御手段13062の要素分割手段130621は、図17の中の、1番目の文字から6番目(上記の「n」は「5」である)の文字までの文字列「ラーメンがい」を取得し、バッファ上に置く(図17の(1))。なお、「n」は、「第一文字列の最大文字数−1」であることが好適である。つまり、文分割制御手段13062は、図14の表から、第一文字列の最大文字数を取得し、「n」を動的に算出することは好適である。
そして、要素分割手段130621は、文字列「ラーメンがい」を、辞書情報格納手段13061(図14参照)に検索しにいく。しかし、文字列「ラーメンがい」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「ラーメンが」を構成する。そして、要素分割手段130621は、文字列「ラーメンが」をバッファ上に置く(図17の(2))。そして、同様に、要素分割手段130621は、文字列「ラーメンが」を、辞書情報格納手段13061に検索しにいく。しかし、文字列「ラーメンが」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「ラーメン」を構成し、バッファ上に置く(図17の(3))。そして、要素分割手段130621は、文字列「ラーメン」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「ラーメン」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図17の(4)から(6))。そして、要素分割手段130621は、最後の文字「ラ」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「ラ」に、未知語であることを示す情報である「未知語」フラグを付与する(図17の(7))。なお、ここでの「未知語」フラグは、情報「未知語」である。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、2番目の文字から6文字分の文字列「ーメンがいい」を読み出し、バッファに配置する(図17の(8))。そして、同様に、要素分割手段130621は、文字列「ーメンがいい」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「ーメンがいい」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図17の(9)から(13))。そして、要素分割手段130621は、最後の文字「ー」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「ー」に、未知語であることを示す情報である「未知語」フラグを付与する(図17の(14))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、3番目の文字から6文字分の文字列「メンがいいな」を読み出し、バッファに配置する(図17の(15))。そして、同様に、要素分割手段130621は、文字列「メンがいいな」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「メンがいいな」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図17の(16)(17)など)。そして、要素分割手段130621は、最後の文字「メ」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「メ」に、未知語であることを示す情報である「未知語」フラグを付与する(図17の(21))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、4番目の文字から6文字分の文字列「ンがいいなあ」を読み出し、バッファに配置する(図17の(22))。同様に、文字列「ンがいいなあ」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく。そして、要素分割手段130621は、最後の文字「ン」も図10の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「ン」に、未知語であることを示す情報である「未知語」フラグを付与する(図17の(28))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、4番目の文字から6文字分の文字列「がいいなあ。」を読み出し、バッファに配置する(図17の(29))。同様に、文字列「がいいなあ。」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図17の(30)から(34))。そして、要素分割手段130621は、最後の文字「が」は図14の辞書情報管理表に存在する、と判断する。そして、要素分割手段130621は、バッファ上に配置した文字列と一致する第一文字列「が」と対になる前接続記号「−&」、後接続記号「n%」、および機能語情報「object」を、辞書情報格納手段13061から読み出し、メモリ上に配置する。そして、要素分割手段130621は、バッファ上に配置した文字列「が」に対して、読み出した前接続記号「−&」、後接続記号「n%」、および機能語情報「object」を付与する(図17の(35))。
以上の処理を繰り返し、処理対象の文「ラーメンがいいなあ。」について、図17の(x)のようなデータを得る。つまり、「ラ」「ー」「メ」「ン」「い」「い」「な」「あ」に対して、「未知語」が付与される。また、「が」に対して、「−&:n%:object」が付与される。また、「。」に対して、「:%%:」が付与される。「:%%:」は、後接続記号が「%%」であることを示す。後接続記号「%%」は、無条件に、後ろが区切られることを示す(図17の(x))。
次に、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「ラ」「ー」「メ」「ン」を連結し文字列「ラーメン」を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなの連続する文字「い」「い」「な」「あ」を連結した文字列「いいなあ」を構成する。そして、要素連結手段130622は、連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報(ここでは、「未知語」)を付与し、バッファに書き込む。バッファ内の情報は、図17の(x+1)である。
次に、要素連結手段130622は、図17(x+1)の各前後するまとまりの文字列(例えば、「ラーメン」と「が」)が連結するか否かを判断し、連結するものは連結させる。
例えば、「ラーメン」と「が」は、「ラーメン」が未知語で、「が」の前接続記号「−&」により、要素連結手段130622は、連結すると判断する。なぜなら、前接続記号「−&」は、前の未知語と連結するからである。そして、要素連結手段130622は、「ラーメンが」に対して、「:n%:object」を付与する(図17(x+2)参照)。「:n%:object」は、前接続記号はなし、後接続記号は「n%」、機能語情報は「object」であることを示す。
また、要素連結手段130622は、「ラーメンが」と「いいなあ」は連結しない、と判断する。後接続記号「n%」は、後続する未知語を連結しないからである。
そして、要素連結手段130622は、「いいなあ」と「。」は連結しない、と判断する。「。」は、無条件に、後ろが区切られる記号であり、前の文字列とは結合しない、とする。
以上の処理により、要素連結手段130622は、2つの第二文字列を得る(図17(x+2)参照)。
次に、文字列取得手段130623は、1番目の第二文字列「ラーメンが」を取得し、当該第二文字列の最後尾の第一文字列「が」に対応する機能語情報「object」または後接続記号「n%」から、第二文字列の種類を「主題」であると、決定する。なお、ここでは、文字列取得手段130623は、後接続記号「n%」から、第二文字列「ラーメンが」の種類を「主題」であると、決定する(図17の(x+3))。
次に、文字列取得手段130623は、2番目の第二文字列「いいなあ」を取得し、区切りの前の「未知語」、という情報から、第二文字列の種類を「状態」であると、決定する(図13の(x+3))。
次に、用語取得手段13141は、文分割制御手段13062が取得した第二文字列の種類(ここでは「主題」、または「副題」とする)から用語を含む第二文字列「ラーメンが」を特定し、当該第二文字列からキーワード「ラーメン」を取得し、メモリ上に配置する。ここでは、用語取得手段13141は、第二文字列に含まれる自立語「ラーメン」を取得し、用語とする。
次に、権威判断部1314は、取得された用語「ラーメン」に対して、ユーザ識別子「5544」で識別されるユーザが権威者であるか否かを判断するために、以下の処理を行う。つまり、出現頻度取得手段13142は、このユーザが記載したブログの中での、取得された用語「ラーメン」の出現頻度(ここでは、出現回数)を、「58」と取得する、とする。なお、出現頻度取得手段13142は、例えば、図16の文章群から、「ラーメン」で、パターンマッチングを行い、出現回数「62」と取得する。
次に、文章群数取得手段13143は、図15の全ての文章群識別子を取得し、各文章群識別子を用いて、順次、文章群を読み出し、用語「ラーメン」が出現する文章群数「3」を得た、とする。
次に、コメント数取得手段13147は、このユーザが記載したブログである文章群に対する、他のユーザからのコメント数「27」を取得した、とする。
また、トラックバック数取得手段13146は、このユーザが記載したブログである文章群に対する、トラックバック数「272」を取得し、メモリ上に配置する。
また、非リンク数取得手段13145は、このユーザが記載したブログである文章群に対する、非リンク数「26」を取得し、メモリ上に配置する。
次に、更新頻度情報取得手段13144は、このユーザが記載したブログである文章群の、最近1ヶ月における更新頻度「30」を取得し、メモリ上に配置する。
以上より、権威判断手段13148は、a「62」、s「3」、c「27」、t「272」、l「26」、u「30」を得る。そして、権威判断手段13148は、例えば、演算式「権威度=(a+c+t+l+u)/s」を読み出し、a「62」、s「3」、c「27」、t「272」、l「26」、u「30」を演算式に代入し、権威度「140」を得る。
次に、権威判断手段13148は、算出した権威度「140」が閾値「100」と比較して、大きいか否かを判断する。ここで、「140>100」が成り立つので、ユーザ識別子「5544」で識別されるユーザは、「ラーメン」の権威者である、と判断される。
次に、ユーザ情報構成部1315は、ユーザを識別するユーザ識別子「5544」と、用語「ラーメン」と、文章群識別子「http://www.5544.xxx.jp/」と、図16に示す文章群(ブログ)を用いて、ユーザ情報を構成する。そして、ユーザ情報蓄積部1316は、構成されたユーザ情報を、ユーザ情報格納部1301に蓄積する。そして、ユーザ情報格納部1301には、図18に示すユーザ情報管理表が格納されている、こととなる。なお、文章群識別子「http://www.5544.xxx.jp/」から、図16のブログにはアクセス可能である。
次に、同様に、権威判断部1314等は、図16の文章群のうちの2番目以降の文を処理し、ユーザ識別子「5544」で識別されるユーザについて、他の用語において、権威者であるか否かを判断していく。かかる判断は、上記した処理と同様である。なお、2番目以降の文を処理したことにより、他の用語に対して、ユーザ識別子「5544」で識別されるユーザは権威者である、とは判断できなかった、とする。
以上の処理により、ある事象(用語に対応)についての権威者(専門家、興味のある人なども同義語)についてのユーザ情報が蓄積できた。
次に、権威者の評価情報を取得する処理を、以下に説明する。権威者の評価情報を取得する処理とは、ユーザがある用語(適宜、権威用語、という。)についての権威者から、評価対象(対象、対象物も同義語である)についての評価を知りたい、と思った場合に、評価情報が得られるための処理である。
かかる状況において、図19は、評価情報格納部1302に管理されている評価情報管理表である。評価情報管理表は、「評価語」「スコア」の属性値を有するレコードを1以上格納している。本評価情報管理表において、例えば、評価語「良い」のスコアは「+3」、評価語「おしゃれ」のスコアは「+4」等である。
また、図20は、変更情報格納手段13073に管理されている変更情報管理表である。変更情報管理表は、「変更語」「評価変更情報」の属性値を有するレコードを1以上格納している。本評価情報管理表において、「評価変更情報」は、スコアに対して乗算される数値である。
また、図示しない抽出タグ情報格納部は、図21に示す抽出タグ情報管理表を保持している。抽出タグ情報管理表は、識別情報と抽出情報を有する抽出タグ情報を1以上格納している。ここでは、識別情報はURLである。抽出情報は、開始タグの一部分であり、かかる文字列を有する開始タグから、対応する終了タグ(ここでは、</div>)までの文が抽出されることとなる。
以上の状況において、ユーザは、例えば、ラーメンについての権威者の、店舗Xの評価について、情報を得ようと、情報端末11に「権威者評判検索 ラーメン 店舗X」と入力した、とする。この「権威者評判検索 ラーメン 店舗X」は、評価者特定情報「ラーメン」と用語「店舗X」を含む命令である。また、「店舗X」とは、ラーメン店の名称である、とする。
すると、端末入力受付部1101は、命令「権威者評判検索 ラーメン 店舗X」を受け付ける。そして、端末情報送信部1102は、端末入力受付部1101が受け付けた命令を、情報処理装置13に送信する。
次に、情報処理装置13の受付部1304は、命令「権威者評判検索 ラーメン 店舗X」を受信する。そして、文章群取得部1305は、評価者特定情報「ラーメン」と用語「店舗X」を取得する。次に、文章群取得部1305は、図18のユーザ情報管理表から権威用語「ラーメン」と対になる1以上の文章群識別子を取得する。そして、1以上の文章群識別子に対応する1以上の文章群を読み出す。ここで、読み出した文章群の例が、図22である。文章群は、信頼度を対に有する。なお、信頼度は、ここでは、上述した権威度を用いても良い。
次に、評価対象取得部1306は、1番目の文章群(ファイル)を取得する。つまり、評価対象取得部1306は、図22の「ID=1」の文章群(HTMLファイル)をファイルオープンする。
そして、次に、評価対象取得部1306は、以下の解析対象文取得処理を行う。つまり、評価対象取得部1306は、1番目の文章群の識別情報(「http://www.xxx.jp/」)に対応する抽出情報を、抽出タグ情報格納部から検索する。そして、評価対象取得部1306は、抽出タグ情報格納部から抽出情報「<div class=ebody」を読み出す。次に、評価対象取得部1306は、取得した抽出情報「<div class=ebody」を用いて、タグ「<div class=ebody」に前方一致する開始タグから、対応する終了タグ「</div>」に囲まれた文を、識別情報(「http://www.xxx.jp/」)で識別される文章群から読み出し、メモリ上に配置する。そして、文「店舗Xは、おしゃれだ。店舗Xが、テレビで評判だ。店舗Xは、おいしいんだ。」などがメモリ上に読み出される。以上で、解析対象文取得処理が完了する。
次に、文分割制御手段13062は、以下のように、読み出した各文を分割する。まず、文分割制御手段13062は、文「店舗Xは、おしゃれだ。」に対して、分割処理を行う。文分割制御手段13062の要素分割手段130621は、文「店舗Xは、おしゃれだ。」の中の、1番目の文字から6番目(上記の「n」は「5」である)の文字までの文字列「店舗Xは、お」を取得し、バッファ上に置く(図23の(1))。
そして、要素分割手段130621は、文字列「店舗Xは、お」を、辞書情報格納手段13061に検索しにいく。しかし、文字列「店舗Xは、お」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「店舗Xは、」を構成する。そして、要素分割手段130621は、文字列「店舗Xは、」をバッファ上に置く(図23の(2))。そして、同様に、要素分割手段130621は、文字列「店舗Xは、」を、辞書情報格納手段13061に検索しにいく。しかし、文字列「店舗Xは、」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「店舗Xは」を構成し、バッファ上に置く(図23の(3))。そして、要素分割手段130621は、文字列「店舗Xは」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「店舗Xは」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図23の(4)から(6))。そして、要素分割手段130621は、最後の文字「店」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「店」に、未知語であることを示す情報である「未知語」フラグを付与する(図23の(7))。なお、ここでの「未知語」フラグは、情報「未知語」である。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、2番目の文字から6文字分の文字列「舗Xは、おし」を読み出し、バッファに配置する(図23の(8))。そして、同様に、要素分割手段130621は、文字列「舗Xは、おし」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「舗Xは、おし」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図23の(9)から(13))。そして、要素分割手段130621は、最後の文字「舗」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「舗」に、未知語であることを示す情報である「未知語」フラグを付与する(図23の(14))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、3番目の文字から6文字分の文字列「Xは、おしゃ」を読み出し、バッファに配置する(図23の(15))。そして、同様に、要素分割手段130621は、文字列「Xは、おしゃ」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「Xは、おしゃ」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図23の(9)から(13))。そして、要素分割手段130621は、最後の文字「X」も図12の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「X」に、未知語であることを示す情報である「未知語」フラグを付与する(図23の(21))。
以降も同様の処理を行っていく(図23の(23)から(27))。そして、要素分割手段130621は、最後の文字「は」は図14の辞書情報管理表に存在する、と判断する。そして、要素分割手段130621は、バッファ上に配置した文字列と一致する第一文字列「は」と対になる前接続記号「−&」、後接続記号「m%」、および機能語情報「object」を、辞書情報格納手段13061から読み出し、メモリ上に配置する。そして、要素分割手段130621は、バッファ上に配置した文字列「は」に対して、読み出した前接続記号「−&」、後接続記号「m%」、および機能語情報「object」を付与する(図23の(28))。
以上の処理を繰り返し、処理対象の文「店舗Xは、おしゃれだ。」について、図23の(x)のようなデータを得る。つまり、「店」「舗」「X」「お」「し」「ゃ」「れ」に対して、「未知語」が付与される。また、「は」に対して、「−&:m%:object」が付与される。また、「、」「。」に対して、「:%%:」が付与される。「:%%:」は、後接続記号が「%%」であることを示す。後接続記号「%%」は、無条件に、後ろが区切られることを示す。さらに、「だ」に対して、「−&:%−:state」が付与される(図23の(x))。
次に、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「店」「舗」「X」を連結し文字列「店舗X」を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなの連続する文字「お」「し」「ゃ」「れ」を連結した文字列「おしゃれ」を構成する。そして、要素連結手段130622は、連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報(ここでは、「未知語」)を付与し、バッファに書き込む。バッファ内の情報は、図23の(x+1)である。
次に、要素連結手段130622は、図23(x+1)の各前後するまとまりの文字列(例えば、「私」と「と」)が連結するか否かを判断し、連結するものは連結させる。
例えば、「店舗X」と「は」は、「店舗X」が未知語で、「は」の前接続記号「−&」により、要素連結手段130622は、連結すると判断する。なぜなら、前接続記号「−&」は、前の未知語と連結するからである。そして、要素連結手段130622は、「店舗Xは」に対して、「:m%:object」を付与する(図23(x+2)参照)。「:m%:object」は、前接続記号はなし、後接続記号は「m%」、機能語情報は「object」であることを示す。
また、要素連結手段130622は、「店舗Xは」と「、」は連結しない、と判断する。「、」は、無条件に、後ろが区切られる記号であり、前の文字列とは結合しない、とする。
そして、要素連結手段130622は、「おしゃれ」と「だ」は連結する、と判断し、連結させる。つまり、要素連結手段130622は、文字列「おしゃれだ」を構成し、かつ、「:%−:state」を付与する(図23(x+2)参照)。
そして、要素連結手段130622は、「おしゃれだ」と「。」は連結しない、と判断する。「。」は、無条件に、後ろが区切られる記号であり、前の文字列とは結合しない、とする。
以上の処理により、要素連結手段130622は、2つの第二文字列を得る(図23(x+2)参照)。
次に、文字列取得手段130623は、1番目の第二文字列「店舗Xは」を取得し、当該第二文字列の最後尾の第一文字列「は」に対応する機能語情報「object」または後接続記号「m%」から、第二文字列の種類を「主題」であると、決定する。なお、ここでは、文字列取得手段130623は、後接続記号「m%」から、第二文字列「店舗Xは」の種類を「主題」であると、決定する(図23の(x+3))。
次に、文字列取得手段130623は、2番目の第二文字列「おしゃれだ」を取得し、当該第二文字列の最後尾の第一文字列「だ」に対応する機能語情報「state」または後接続記号「%−」から、第二文字列の種類を「状態」であると、決定する。なお、ここでは、文字列取得手段130623は、機能語情報「state」から、第二文字列「おしゃれだ」の種類を「状態」であると、決定する(図23の(x+3))。
次に、文字列取得手段130623は、出力する(メモリ上に配置する)要素の順序を示す文構造「主題、状態」を読み出す。なお、文構造「主題、状態」は、あらかじめ文字列取得手段130623が保持している、とする。そして、文字列取得手段130623は、文構造「主題、状態」に従って、第二文字列「店舗Xは」「おしゃれだ」をメモリ上に配置する。そして、文字列取得手段130623は、文要素に対応する種類の情報も、第二文字列と対にして、メモリ上に書き込む。そして、文字列取得手段130623は、「店舗Xは:主題、おしゃれだ:状態」を得る。以上の処理により、文「店舗Xは、おしゃれだ。」を、「主題」と「状態」に分割できた。
次に、評価対象取得手段13063は、メモリ上に配置された情報から、文分割制御手段13062が取得した第二文字列の種類「主題」から評価の対象を含む第二文字列「店舗Xは」を特定し、当該第二文字列「店舗Xは」から評価対象「店舗X」を取得する。
次に、スコア取得手段13071は、評価対象を含む第二文字列「店舗X」を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列「おしゃれだ」を取得する。
次に、スコア取得手段13071は、取得した第二文字列「おしゃれだ」中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を各々読み出し、当該各評価語をキーとして、第二文字列「おしゃれだ」を検索する。そして、評価情報格納部1302の一つの評価語「おしゃれ」が、第二文字列「おしゃれだ」中に含まれることを検知する。
そして、スコア取得手段13071は、評価情報格納部1302を検索し、評価語「おしゃれ」に対応するスコア「+4」を読み出し、メモリ上に配置する。
次に、スコア取得手段13071は、解析対象の1番目の文章群(「http://www.xxx.jp/」で特定されるファイル)に対する信頼度が存在するか否か、ユーザ情報格納部1301を検索する。そして、1番目の文章群(「http://www.xxx.jp/」で特定されるファイル))に対する信頼度は存在するので、スコア取得手段13071は、1番目の文章群(「http://www.xxx.jp/」で特定されるファイル))に対する信頼度「1.0」を読み出す。次に、スコア取得手段13071は、読み出した信頼度「1.0」と読み出したスコア「+4」を用いて、「(+4)×1.0=4」と新しいスコアを算出し、メモリ上に一時的に配置する。なお、ここでは、信頼度が「1.0」であるため、最初のスコアは変更されない。
次に、スコア変更処理を行おうとするが、変更語が対象文中に含まれないので、スコアの変更処理は行われない。
次に、文分割制御手段13062は、2つ目の文「店舗Xが、テレビで評判だ。」を、上記の処理と同様に、以下のように分割する。つまり、文分割制御手段13062の要素分割手段130621は、文「店舗Xが、テレビで評判だ。」の中の、1番目の文字から6番目(上記の「n」は「5」である)の文字までの文字列「店舗Xが、テ」を取得し、バッファ上に置く(図24の(1))。
そして、要素分割手段130621は、文字列「店舗Xが、テ」を、辞書情報格納手段13061に検索しにいく。しかし、文字列「店舗Xが、テ」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「店舗Xが、」を構成する。そして、要素分割手段130621は、文字列「店舗Xが、」をバッファ上に置く(図24の(2))。そして、同様に、要素分割手段130621は、文字列「店舗Xが、」を、辞書情報格納手段13061に検索しにいく。しかし、文字列「店舗Xが、」に合致する第一文字列が、図14の辞書情報管理表に存在しないので、要素分割手段130621は、先の文字列より1文字少ない文字列「店舗Xが」を構成し、バッファ上に置く(図24の(3))。そして、要素分割手段130621は、文字列「店舗Xが」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「店舗Xが」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図24の(4)から(6))。そして、要素分割手段130621は、最後の文字「店」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「店」に、未知語であることを示す情報である「未知語」フラグを付与する(図24の(7))。なお、ここでの「未知語」フラグは、情報「未知語」である。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、2番目の文字から6文字分の文字列「舗Xが、テレ」を読み出し、バッファに配置する(図24の(8))。そして、同様に、要素分割手段130621は、文字列「舗Xが、テレ」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「舗Xが、テレ」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図24の(9)から(13))。そして、要素分割手段130621は、最後の文字「舗」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「舗」に、未知語であることを示す情報である「未知語」フラグを付与する(図24の(14))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、3番目の文字から6文字分の文字列「Xが、テレビ」を読み出し、バッファに配置する(図24の(15))。そして、同様に、要素分割手段130621は、文字列「Xが、テレビ」を、辞書情報格納手段13061に検索しにいく。同様に、文字列「Xが、テレビ」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図24の(9)から(13))。そして、要素分割手段130621は、最後の文字「X」も図14の辞書情報管理表に存在しない、と判断する。そして、要素分割手段130621は、文字「X」に、未知語であることを示す情報である「未知語」フラグを付与する(図24の(21))。
次に、要素分割手段130621は、処理対象の文字列の先頭のポインタを1ずらす。そして、要素分割手段130621は、4番目の文字から6文字分の文字列「が、テレビで」を読み出し、バッファに配置する(図24の(22))。同様に、文字列「が、テレビで」に合致する第一文字列が、図14の辞書情報管理表に存在しない。そして、要素分割手段130621は、同様の処理により、1文字ずつ文字数を少なくして、辞書情報格納手段13061に検索しにいく(図24の(23)から(27))。そして、要素分割手段130621は、最後の文字「が」は図14の辞書情報管理表に存在する、と判断する。そして、要素分割手段130621は、バッファ上に配置した文字列と一致する第一文字列「が」と対になる前接続記号「−&」、後接続記号「n%」、および機能語情報「object」を、辞書情報格納手段13061から読み出し、メモリ上に配置する。そして、要素分割手段130621は、バッファ上に配置した文字列「が」に対して、読み出した前接続記号「−&」、後接続記号「n%」、および機能語情報「object」を付与する(図24の(28))。
以上の処理を繰り返し、処理対象の文「店舗Xが、テレビで評判だ。」について、図24の(x)のようなデータを得る。つまり、「店」「舗」「X」「テ」「レ」「ビ」「評」「判」に対して、「未知語」が付与される。また、「が」に対して、「−&:n%:object」が付与される。また、「、」「。」に対して、「:%%:」が付与される。また、「で」に対して、「−&:s%:object」が付与される。さらに、「だ」に対して、「−&:%−:state」が付与される(図24の(x))。
次に、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「店」「舗」「X」を連結し文字列「店舗X」を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「テ」「レ」「ビ」を連結し文字列「テレビ」を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「評」「判」を連結し文字列「評判」を構成する。そして、要素連結手段130622は、連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報(ここでは、「未知語」)を付与し、バッファに書き込む。バッファ内の情報は、図24の(x+1)である。
次に、要素連結手段130622は、図24(x+1)の各前後するまとまりの文字列(例えば、「店舗X」と「が」)が連結するか否かを判断し、連結するものは連結させる。
例えば、「店舗X」と「が」は、「店舗X」が未知語で、「が」の前接続記号「−&」により、要素連結手段130622は、連結すると判断する。そして、要素連結手段130622は、「店舗Xが」に対して、「:n%:object」を付与する(図24(x+2)参照)。「:n%:object」は、前接続記号はなし、後接続記号は「n%」、機能語情報は「object」であることを示す。
また、同様に、要素連結手段130622は、「テレビ」と「で」は連結する、と判断し、連結させる。つまり、要素連結手段130622は、文字列「テレビで」を構成し、かつ、「:s%:object」を付与する(図24(x+2)参照)。なお、図24(x+2)において、前接続記号が存在しないことを「−」で示している。
そして、同様に、要素連結手段130622は、「評判」と「だ」は連結する、と判断し、連結させる。つまり、要素連結手段130622は、文字列「評判だ」を構成し、かつ、「:%−:state」を付与する(図24(x+2)参照)。
以上の処理により、要素連結手段130622は、3つの第二文字列を得る(図24(x+2)参照)。
次に、文字列取得手段130623は、1番目の第二文字列「店舗Xが」を取得し、当該第二文字列の最後尾の第一文字列「が」に対応する機能語情報「object」または後接続記号「n%」から、第二文字列の種類を「主題」であると、決定する。なお、ここでは、文字列取得手段130623は、後接続記号「n%」から、第二文字列「店舗Xが」の種類を「主題」であると、決定する(図24の(x+3))。
次に、文字列取得手段130623は、2番目の第二文字列「評判だ」を取得し、当該第二文字列の最後尾の第一文字列「だ」に対応する機能語情報「state」または後接続記号「%−」から、第二文字列の種類を「状態」であると、決定する。なお、ここでは、文字列取得手段130623は、機能語情報「state」から、第二文字列「評判だ」の種類を「状態」であると、決定する(図24の(x+3))。
次に、文字列取得手段130623は、メモリ上に配置する要素の順序を示す文構造「主題、状態」を読み出す。なお、文構造「主題、状態」は、あらかじめ文字列取得手段130623が保持している、とする。そして、文字列取得手段130623は、文構造「主題、状態」に従って、第二文字列「店舗Xが」「評判だ」をメモリ上に配置する。そして、文字列取得手段130623は、文要素に対応する種類の情報も、第二文字列と対にして、メモリ上に書き込む。そして、文字列取得手段130623は、「店舗Xが:主題、評判だ:状態」を得る。以上の処理により、文「店舗Xが、評判だ。」を、「主題」と「状態」に分割できた。
次に、評価対象取得手段13063は、メモリ上に配置された情報から、文分割制御手段13062が取得した第二文字列の種類「主題」から評価の対象を含む第二文字列「店舗Xが」を特定し、当該第二文字列「店舗Xが」から評価対象「店舗X」を取得する。なお、上記の第一文で取得している評価対象「店舗X」を、そのまま利用しても良いし、評価対象「店舗X」は、予め与えられても良い。
次に、スコア取得手段13071は、評価対象を含む第二文字列「店舗X」を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列「評判だ」を取得する。
次に、スコア取得手段13071は、取得した第二文字列「評判だ」中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を読み出し、当該各評価語をキーとして、第二文字列「評判だ」を検索する。そして、評価情報格納部1302の評価語がまったく存在しないので、2つ目の文「店舗Xが、評判だ。」の処理は終了する。
次に、文分割制御手段13062は、3つ目の文「店舗Xは、おいしいんだ。」に対して、上記と同様の分割処理を行う。そして、要素分割手段130621は、処理対象の文「店舗Xは、おいしいんだ。」について、図25の(x)のようなデータを得る。つまり、「店」「舗」「X」「お」「い」「し」「い」に対して、「未知語」が付与される。また、「は」に対して、「−&:m%:object」が付与される。また、「、」「。」に対して、「:%%:」が付与される。さらに、「んだ」に対して、「−&:s%:state」が付与される(図25の(x))。
次に、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなではない文字「店」「舗」「X」を連結し文字列「店舗X」を構成する。また、要素連結手段130622は、要素分割手段130621が未知語フラグ「未知語」を付与した連続する未知語であり、ひらがなの連続する文字「お」「い」「し」「い」を連結した文字列「おいしい」を構成する。そして、要素連結手段130622は、連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報(ここでは、「未知語」)を付与し、バッファに書き込む。バッファ内の情報は、図25の(x+1)である。
次に、要素連結手段130622は、図25(x+1)の各前後するまとまりの文字列(例えば、「おいしい」と「んだ」)が連結するか否かを判断し、連結するものは連結させる。そして、要素連結手段130622は、図25(x+2)のデータを得て、当該データをメモリ上に配置する。以上の処理により、要素連結手段130622は、2つの第二文字列を得る(図25(x+2)参照)。
次に、文字列取得手段130623は、1番目の第二文字列「店舗Xは」を取得し、当該第二文字列の最後尾の第一文字列「は」に対応する機能語情報「object」または後接続記号「m%」から、第二文字列の種類を「主題」であると、決定する(図23の(x+3))。
次に、文字列取得手段130623は、2番目の第二文字列「おいしいんだ」を取得し、当該第二文字列の最後尾の第一文字列「んだ」に対応する機能語情報「state」または後接続記号「s%」から、第二文字列の種類を「状態」であると、決定する。なお、ここでは、文字列取得手段130623は、機能語情報「state」から、第二文字列「おいしいんだ」の種類を「状態」であると、決定する(図25の(x+3))。
次に、文字列取得手段130623は、文字列取得手段130623は、「店舗Xは:主題、おいしいんだ:状態」を得て、メモリ上に書き込む。以上の処理により、文「店舗Xは、おいしいんだ。」を、「主題」と「状態」に分割できた。
次に、評価対象取得手段13063は、メモリ上に配置された情報から、文分割制御手段13062が取得した第二文字列の種類「主題」から評価の対象を含む第二文字列「店舗Xは」を特定し、当該第二文字列「店舗Xは」から評価対象「店舗X」を取得する。
次に、スコア取得手段13071は、評価対象を含む第二文字列「店舗X」を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列「おいしいんだ」を取得する。
次に、スコア取得手段13071は、取得した第二文字列「おいしいんだ」中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を読み出し、当該各評価語をキーとして、第二文字列「おいしいんだ」を検索する。そして、評価情報格納部1302の一つの評価語「おいしい」が、第二文字列「おいしいんだ」中に含まれることを検知する。
そして、スコア取得手段13071は、評価情報格納部1302を検索し、評価語「おいしい」に対応するスコア「+4」を読み出し、メモリ上に配置する。
次に、スコア取得手段13071は、解析対象の1番目の文章群(「http://www.xxx.jp/」で特定されるファイル)に対する信頼度「1.0」と読み出したスコア「+4」を用いて、「(+4)×1.0=4」と新しいスコアを算出し、メモリ上に一時的に配置する。なお、ここでは、信頼度が「1.0」であるため、最初のスコアは変更されない。
次に、スコア変更処理を行おうとするが、変更語が対象文中に含まれないので、スコアの変更処理は行われない。
以上により、1番目の文章群(「http://www.xxx.jp/」で特定されるファイル)に対する処理は完了する。
次に、情報処理装置13は、2番目の文章群(「http://www.ぐるめ.co.jp/」で特定されるファイル)に対する処理を行う。まず、評価対象取得部1306は、2番目の文章群(ファイル)を、ユーザ情報格納部1301から読み出す。つまり、評価対象取得部1306は、図11の「ID=2」の文章群(HTMLファイル)をファイルオープンする。
そして、次に、評価対象取得部1306は、以下の解析対象文取得処理を行う。つまり、評価対象取得部1306は、2番目の文章群の識別情報(「http://www.ぐるめ.co.jp /」)を取得する。次に、評価対象取得部1306は、識別情報(「http://www.ぐるめ.co.jp/」)に対応する抽出情報を、抽出タグ情報格納部から検索する。そして、評価対象取得部1306は、抽出タグ情報格納部から抽出情報「<div class=mainbody」を読み出す。次に、評価対象取得部1306は、取得した抽出情報「<div class= mainbody」を用いて、タグ「<div class= mainbody」に前方一致する開始タグから、対応する終了タグ「</div>」に囲まれた文を、識別情報(「http://www. ぐるめ.co.jp/」)で識別される文章群から読み出し、メモリ上に配置する。そして、「店舗Xは、あまり綺麗ではない。店舗Xは、おいしい。」などの文がメモリ上に読み出される。以上で、解析対象文取得処理が完了する。
次に、文分割制御手段13062は、以下のように、読み出した各文を分割する。まず、文分割制御手段13062は、文「店舗Xは、あまり綺麗ではない。」に対して、上記で説明した分割処理を行う。そして、文分割制御手段13062は、図26の(1)に示すように、文「店舗Xは、あまり綺麗ではない。」を分割し、かつ、「主題」である第二文字列「店舗Xは」と、「状態」である第二文字列「あまり綺麗ではない」を得る。
次に、評価対象取得手段13063は、メモリ上に配置された情報から、文分割制御手段13062が取得した第二文字列の種類「主題」から評価の対象を含む第二文字列「店舗Xは」を特定し、当該第二文字列「店舗Xは」から評価対象「店舗X」を取得する。
次に、スコア取得手段13071は、評価対象を含む第二文字列「店舗X」を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列「あまり綺麗ではない」を取得する。
次に、スコア取得手段13071は、取得した第二文字列「あまり綺麗ではない」中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を各々読み出し、当該各評価語をキーとして、第二文字列「あまり綺麗ではない」を検索する。そして、評価情報格納部1302の一つの評価語「綺麗」が、第二文字列「あまり綺麗ではない」中に含まれることを検知する。
そして、スコア取得手段13071は、評価情報格納部1302を検索し、評価語「綺麗」に対応するスコア「+4」を読み出し、メモリ上に配置する。
次に、スコア取得手段13071は、解析対象の1番目の文章群(「http://www.ぐるめ.co.jp/」で特定されるファイル)に対する信頼度「0.8」を、ユーザ情報格納部1301から検索し、取得する。そして、スコア取得手段13071は、スコア「+4」と信頼度「0.8」を用いて、新しいスコア「(+4)×0.8=3.2」を算出し、メモリ上に配置する。
次に、スコア変更処理を行う。つまり、変更語取得手段13074は、変更情報格納手段13073の変更情報が有する変更語の情報を用いて、評価語「綺麗」の前後の所定以内の文字数(ここでは、例えば、「5」とする。)の距離内に、変更語が存在するか否かを判断する。変更語取得手段13074は、第二文字列「あまり綺麗ではない」において、評価語「綺麗」の前後5文字以内に「あまり」、「ではない」という2つの変更語が存在する、と検知し、変更語「あまり」、「ではない」を取得し、メモリ上に配置する。
次に、評価変更情報取得手段13075は、取得された変更語「あまり」と対になる評価変更情報「0.5」、変更語「ではない」と対になる評価変更情報「−1」を、変更情報格納手段13073から取得し、メモリ上に配置する。
次に、変更スコア算出手段13076は、2つの評価変更情報「0.5」「−1」を用いて、スコア「3.2」に対して演算する。ここでは、例えば、変更スコア算出手段13076は、「(3.2)×0.5×(−1)=−1.6」の演算を行い、新しいスコア「−1.6」を得て、メモリ上に配置する。
次に、文分割制御手段13062は、2つ目の文「店舗Xは、おいしい。」に対して、上記で説明した分割処理を行う。そして、文分割制御手段13062は、図26の(2)に示すように、文「店舗Xは、おいしい。」を分割し、かつ、「主題」である第二文字列「店舗Xは」と、「状態」である第二文字列「おいしい」を得る。
次に、評価対象取得手段13063は、メモリ上に配置された情報から、文分割制御手段13062が取得した第二文字列の種類「主題」から評価の対象を含む第二文字列「店舗Xは」を特定し、当該第二文字列「店舗Xは」から評価対象「店舗X」を取得する。
次に、スコア取得手段13071は、評価対象を含む第二文字列「店舗X」を有する文中の他の特定の第二文字列の種類(例えば、「状態」)に対応する第二文字列「おいしい」を取得する。
次に、スコア取得手段13071は、取得した第二文字列「おいしい」中に、評価語を含むか否か決定するために、評価情報格納部1302が有する1以上の評価語を各々読み出し、当該各評価語をキーとして、第二文字列「おいしい」を検索する。そして、評価情報格納部1302の一つの評価語「おいしい」が、第二文字列「おいしい」中に含まれることを検知する。
そして、スコア取得手段13071は、評価情報格納部1302を検索し、評価語「おいしい」に対応するスコア「+4」を読み出し、メモリ上に配置する。
次に、スコア取得手段13071は、解析対象の2番目の文章群(「http://www.ぐるめ.co.jp/」で特定されるファイル)に対する信頼度「0.8」とスコア「+4」を用いて、新しいスコア「(+4)×0.8=3.2」を算出し、メモリ上に配置する。
次に、スコア変更処理を行う。しかし、変更語取得手段13074は、2つ目の文「店舗Xは、おいしい。」において変更語が存在しない、と判断し、スコア変更処理は行わない。
以上のような処理により、図27に示すような4以上の新しいスコアが算出され、メモリ上に配置された。図27は、文章群から取得した評価語や変更語やスコア等と、新しいスコアが算出されるまで過程を示す一覧表である。
そして、上記のような処理により、すべての文章群に対する解析処理が完了した、とする。
次に、評価算出手段13072は、一時格納した1以上のスコアを用いて、評価対象についての評価(代表値)を算出する。ここでは、評価算出手段13072は、多数のスコアの平均値を算出する、とする。そして、評価算出手段13072は、例えば、「2.5」を得て、メモリ上に配置する。
評価出力部1308は、評価対象「店舗X」と、算出した評価「2.5」を対にして、情報端末11に送信する。
そして、情報端末11の端末情報受信部1103は、評価対象「店舗X」と、算出した評価「2.5」を受信する。次に、端末出力部1105は、評価対象「店舗X」と、算出した評価「2.5」を出力する。このことにより、ユーザは、ラーメンの専門家による「店舗X」の評価は、「2.5」である(普通より上である)ことを知る。
なお、評価出力部1308は、評価対象「店舗X」と、算出した評価「2.5」を対にして、情報端末11に送信したが、記録媒体に蓄積しても良い。
また、情報処理装置13は、他の評価対象についても、評価を算出し、評価対象と評価を対にして、記録媒体に蓄積しておいても良い。そして、情報処理装置13は、記録媒体に、図28に示す評価管理表を蓄積しておいても良い。なお、評価管理表は、「ID」「評価対象」「評価」の属性を有する1以上のレコードを管理している。そして、予め格納されている評価情報を用いて、情報端末11に、要求された評価情報を送信しても良い。また、図28は、分野「ラーメン」についての、各評価対象の評価結果を管理している表である。
以上、本実施の形態によれば、ある特定の層やグループに属する人たちの、ある事象(商品、サービス、店舗、会社など、何でも良い)についての評価を知ることができる。特に、本実施の形態によれば、権威者の評価を知ることができる。
なお、本実施の形態の具体例において、評価出力部1308は、評価対象と、算出した評価を対にして、情報端末11に送信したり、記録媒体に蓄積したりした。しかし、評価出力部1308から渡された評価対象と、算出した評価を用いて、文選択部1309が評価対象(例えば、「店舗X」)の含まれる文(または文の一部)を取得し、出力情報出力部1310が、文選択部1309が取得した文を含む出力情報を構成し、情報端末11に送信しても良い。なお、ここで、出力情報は、文と文章群識別子(ここでは、URL)をも含み、例えば、HTMLで記載されている、とする。そして、情報端末11の端末情報受信部1103は出力情報を受信し、端末処理部1104は出力情報を解釈し(HTMLを解釈し)、出力画面を構成し、端末出力部1105は出力画面を出力する。この出力画面の具体例は、図29である。図29において、2901はユーザが入力した専門分野を特定する評価者特定情報、2902は評価対象を示す用語である。そして、ユーザが「検索」ボタンを押下することにより、評価者特定情報「ラーメン」、用語「店舗X」が情報処理装置13に送信され、「店舗X」の「ラーメン」の専門家による評価が取得される。また、図29の2903が、「店舗X」の「ラーメン」の専門家による評価の表示例である。2904は、出力情報に含まれる文と文章群識別子の例である。つまり、2903と2904が出力情報の例である。2904の下線は、アンカーであることを示す。つまり、2904の下線に対するマウス等による指示を受け付けた場合、アンカーと対応付けて管理されているURL(文章群識別子)で特定される文章群(ブログ等)が取得される。
また、本実施の形態の具体例において、広告情報取得部1311は評価出力部1308が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を取得しても良い。かかる場合、広告情報出力部1312は、広告情報取得部1311が取得した広告情報を、例えば、情報端末11に送信する。なお、例えば、広告情報格納部1303が、図30に示す広告情報管理表を格納している場合について説明する。広告情報管理表は、広告情報管理表は、1以上の広告情報を格納している。出力広告情報管理表は、「ID」「広告情報名」「条件情報」「広告」「URL」を有するレコードを1以上格納している。「ID」は、レコードを識別する情報であり、表におけるレコード管理のために存在する。「広告情報名」は、広告情報を識別する名前である。「条件情報」は、用語と評価(スコア)を有し、広告情報の出力の条件を示す情報である。「条件情報」は、AND、OR、括弧()などを用いた複合した条件を示す情報であっても良い。「広告」は、情報端末11に送信される広告情報である。「URL」は、広告がクリックされた場合に、ジャンプするウェブページのURLである。そして、広告情報取得部1311は、用語「店舗X」、評価「2.5」を受け付け、広告情報格納部1303を検索し、用語「店舗X」、評価「2.5」に合致する条件情報(「ID=3」のレコードの条件情報)を選択する。そして、広告情報取得部1311は、「ID=3」のレコードの広告と、URLを取得する。広告情報出力部1312は、広告情報取得部1311が取得した「ID=3」のレコードの広告と、URLから広告情報を構成し、当該広告情報を情報端末11に送信する。次に、情報端末11の端末情報受信部1103は広告情報を受信し、端末処理部1104は広告情報を解釈し(HTMLを解釈し)、出力画面を構成し、端末出力部1105は出力画面を出力する。なお、広告の出力例は、図29の2905である。なお、通常、図29の検索結果、専門家の声、広告は、端末処理部1104により、一度に処理され、端末出力部1105により出力される。また、広告情報管理表において、条件情報は必須ではない。広告情報に含まれる用語を受け付けた場合に、条件情報によらず、広告情報取得部1311は、用語に対応する広告情報を取得しても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、評価者を特定する情報である評価者特定情報を受け付ける受付部と、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納している記憶媒体から、前記評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語と、評価対象の良し悪しに関する用語である評価語を有する評価情報を用いて、評価を取得する評価取得部と、前記評価取得部が取得した評価対象の評価を出力する評価出力部として機能させるためのプログラムである。
また、上記プログラムにおいて、コンピュータを、前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象が含まれる文を取得する文選択部と、
前記文選択部が取得した文を含む出力情報を構成し、出力する出力情報出力部としてさらに機能させることは好適である。
前記文選択部が取得した文を含む出力情報を構成し、出力する出力情報出力部としてさらに機能させることは好適である。
また、上記プログラムにおいて、前記ユーザ情報は、文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、前記評価取得部は、前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、前記文選択部は、前記評価の遷移から、一定以上の評価の上昇が見られる評価対象が含まれる文の一部を取得するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、コンピュータを、前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を、記憶媒体から取得する広告情報取得部と、前記広告情報取得部が取得した広告情報を出力する広告情報出力部としてさらに機能させることは好適である。
また、上記プログラムにおいて、前記ユーザ情報は、文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、前記評価取得部は、前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、前記広告情報取得部は、前記評価の遷移から、一定以上の評価の上昇が見られる評価対象を選択し、当該評価対象に対応する広告情報を取得するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記評価対象取得部は、第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、前記1以上の各文について、当該各文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、前記文分割制御手段が取得した第二文字列の種類から評価対象を含む第二文字列を特定し、当該第二文字列から評価対象を取得する評価対象取得手段とを具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記文分割制御手段は、前記文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に当該文字列が存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、前記要素分割手段が未知語情報を付与した連続する未知語でありひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、隣接する前記要素分割手段が分割した要素またはまとまり情報が有する、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号を読み出し、当該前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、連結可能な要素またはまとまり情報を一つの文字列にまとめて、複数の第二文字列を取得する要素連結手段と、前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記評価情報は、評価対象の良し悪しに関する用語である評価語、および良し悪しの程度を示すスコアを対に有し、前記評価取得部は、前記評価対象を含む第二文字列を有する文中の他の第二文字列の種類を用いて評価語を含み得る第二文字列を特定し、当該第二文字列が有する評価語を前記評価情報格納部から検索し、当該検索した評価語と対になるスコアを前記評価情報格納部から取得するスコア取得手段と、前記評価対象取得手段が取得した同一の評価対象についての1以上のスコアを用いて、当該評価対象についての評価を算出する評価算出手段とを具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記評価取得部は、評価語に対する評価の変更を示す言い回しの用語である変更語、および評価を変更するための情報である評価変更情報の対である変更情報を1以上格納している変更情報格納手段と、評価語から所定以内の文字数の距離内にある変更語を取得する変更語取得手段と、前記変更語と対になる評価変更情報を取得する評価変更情報取得手段と、前記スコア取得手段が取得したスコアに対して、前記評価変更情報取得手段が取得した評価変更情報を用いて、スコアを変更し、新たなスコアを算出する変更スコア算出手段とをさらに具備し、前記評価算出手段は、前記評価対象取得部が取得した同一の評価対象についての1以上のスコア、および前記変更スコア算出手段が算出した同一の評価対象についての1以上の新たなスコアを用いて、当該評価対象についての評価を算出するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、ユーザ情報は、ユーザを識別するユーザ識別子と、前記ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、前記ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有し、前記文章群取得部は、前記評価対象に対応する用語と対になる文章群を、前記ユーザ情報から取得するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、ユーザ識別子と1以上の文章識別子と1以上の文章群を受信する情報受信部と、前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、用語の出現頻度を取得し、当該出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断部と、前記権威判断部が、前記ユーザが前記用語に対応する事象に対して権威者であると判断した場合、前記ユーザ識別子と、前記用語と、前記文章群識別子を用いて、ユーザ情報を構成するユーザ情報構成部と、前記ユーザ情報構成部が構成したユーザ情報を、前記ユーザ情報格納部に蓄積するユーザ情報蓄積部をさらに具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、すべての文章群に対して、前記用語が出現する文章群の数を取得する文章群数取得手段と、前記出現頻度と前記文章群の数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ユーザ識別子で識別されるユーザが記載したブログの更新頻度の情報を取得する更新頻度情報取得手段と、前記出現頻度と前記更新頻度の情報を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログがリンクを張られている数である非リンク数を取得する非リンク数取得手段と、前記出現頻度と前記非リンク数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログのトラックバック数を取得するトラックバック数取得手段と、前記出現頻度と前記トラックバック数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記文章群はブログであり、前記権威判断部は、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、前記ブログに対するコメント数を取得するコメント数取得手段と、前記出現頻度と前記コメント数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、前記権威判断部は、第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、前記文章群に含まれる文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、前記文分割制御手段が取得した第二文字列の種類から用語を含む第二文字列を特定し、当該第二文字列から用語を取得する用語取得手段と、前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語取得手段が取得した用語の出現頻度を取得する出現頻度取得手段と、前記出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備するものとして、コンピュータを、機能させることは好適である。
さらに、上記プログラムにおいて、前記文分割制御手段は、前記文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、前記要素分割手段が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、隣接する2つの、前記要素分割手段が分割した要素またはまとまり情報を読み出し、当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数取得する要素連結手段と、前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備するものとして、コンピュータを、機能させることは好適である。
また、上記プログラムにおいて、ものとして、コンピュータを、機能させることは好適
(実施の形態2)
(実施の形態2)
本実施の形態において、ある特定の層やグループに属する人たちの、ある事象(事象とは、商品、サービス、店舗、会社など、何でも良い)についての評価を知ることができる情報処理システム2について説明する。ここでは、ある特定の層やグループに属する人たちは、知人DBに格納されているユーザの知人・友人等である。
本実施の形態における情報処理システム2の概念図は図1である。情報処理システム2は、1以上の情報端末11、1以上の情報管理装置12、および情報処理装置23を有する。図31は、本実施の形態における情報処理装置23のブロック図である。
情報処理装置23は、ユーザ情報格納部1301、評価情報格納部1302、広告情報格納部1303、受付部2304、知人管理部2301、文章群取得部2305、評価対象取得部1306、評価取得部1307、評価出力部1308、文選択部1309、出力情報出力部1310、広告情報取得部1311、広告情報出力部1312、情報受信部1313、ユーザ情報構成部1315、ユーザ情報蓄積部1316を具備する。
受付部2304は、ユーザ識別子を受け付ける。ユーザ識別子は、情報端末11のユーザを識別する情報である。また、受付部2304は、評価対象をも受け付けることは好適である。ユーザ識別子などの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部2304は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
知人管理部2301は、第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である知人情報を1以上の格納している。なお、知人とは、第一のユーザ識別子で識別されるユーザと何らかの関係がある者程度の意味であり、広く解し、友人、親族などが含まれて良いことは言うまでもない。知人管理部2301は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。知人管理部2301に知人情報が記憶される過程は問わない。例えば、記録媒体を介して知人情報が知人管理部2301で記憶されるようになってもよく、通信回線等を介して送信された知人情報が知人管理部2301で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された知人情報が知人管理部2301で記憶されるようになってもよい。
文章群取得部2305は、受付部2304が受け付けたユーザ識別子と対になる第二のユーザ識別子を知人管理部2301から取得する。そして、文章群取得部2305は、ユーザ情報格納部1301から、当該第二のユーザ識別子を含むユーザ情報が有する文章群を取得する。文章群取得部2305は、通常、MPUやメモリ等から実現され得る。文章群取得部2305の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理システム2の情報処理装置23の動作について、図32のフローチャートを用いて説明する。図32のフローチャートは、ユーザの知人等の評価を出力する処理について説明するフローチャートである。図32のフローチャートにおいて、図10のフローチャートと同一のステップについて、説明を省略する。
(ステップS3201)受付部1304は、ユーザ識別子を含む評価者特定情報を受け付けたか否かを判断する。評価者特定情報を受け付ければステップS3202に行き、評価者特定情報を受け付けなければステップS3201に戻る。
(ステップS3202)文章群取得部2305は、ステップS3201で受け付けたユーザ識別子と対になる知人等の1以上のユーザ識別子を、知人管理部2301から取得する。そして、文章群取得部2305は、取得した1以上の各ユーザ識別子と対になる1以上の文章群を、ユーザ情報格納部1301から取得する。
なお、図32のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における情報処理システム2の具体的な動作について説明する。情報処理システム2における評価を出力する処理について、実施の形態1との相違点は、文章群の取得処理である。ここでは、文章群の取得処理について説明する。情報処理システム2の概念図は図1である。
今、知人管理部2301は、図33に示す知人管理表を保持している。知人管理表は、「ID」「第一のユーザ識別子」「第二のユーザ識別子」「信頼度」を有するレコードを1以上格納している。「信頼度」とは、第一のユーザ識別子で識別されるユーザが、第二のユーザ識別子で識別されるユーザを信頼する度合いであり、ここでは、「1」から「5」の5段階で示される。数が大きいほど、信頼度は高い、とする。なお、このユーザ識別子に与えられた信頼度は、実施の形態1における文章群(このユーザ識別子で識別されるユーザが記載した文章群)の信頼度となる、とする。
また、辞書情報格納手段13061には、図14に示す辞書情報管理表が格納されている。また、評価情報格納部1302に図19の評価情報管理表が管理されている。また、変更情報格納手段13073に図20の変更情報管理表が管理されている。また、図示しない抽出タグ情報格納部は、図21に示す抽出タグ情報管理表を保持している。さらに、ユーザ情報格納部1301は、図18に示すようなユーザ情報管理表が格納されている。なお、ここでのユーザ情報管理表では、「権威用語」「権威度」は必要がない。
かかる状況において、ユーザ識別子「3276」で識別されるユーザが、「店舗X」の知人の評価を知りたいと思い、情報端末11に「店舗X」を入力したとする。そして、情報端末11は、ユーザ識別子「3276」と「店舗X」を情報処理装置13に送信する。
次に、情報処理装置23の受付部2304は、ユーザ識別子「3276」と「店舗X」を受信する。
次に、文章群取得部2305は、ユーザ識別子「3276」と対になる知人等の1以上のユーザ識別子「http//:www.xxx.jp/」を、知人管理部2301から取得する。次に、文章群取得部2305は、ユーザ識別子「http//:www.xxx.jp/」で識別される文章群を取得する。
そして、以降、情報処理装置23は、実施の形態1の情報処理装置13と同様の処理を行い、ユーザ識別子「3276」で識別される人(知人)の「店舗X」に対する評価を得て、当該評価を出力する。評価の出力態様は問わない。情報端末11における評価の出力例は、図29である。
以上、本実施の形態によれば、知人DBに格納されているユーザの知人・友人等の、ある事象についての評価を知ることができる。
なお、本実施の形態によれば、知人とは、ある人(ユーザ識別子)に対応付けて管理されている人(ユーザ識別子)のいう程度の意味であり、広く解する。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、評価者を特定する情報である評価者特定情報を受け付ける受付部と、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納している記憶媒体から、前記評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語と、評価対象の良し悪しに関する用語である評価語を有する評価情報を用いて、評価を取得する評価取得部と、前記評価取得部が取得した評価対象の評価を出力する評価出力部として機能させるためのプログラムである。
上記プログラムにおいて、前記受付部は、ユーザ識別子を受け付け、前記文章群取得部は、第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である1以上の知人情報が格納されている記憶媒体から、前記受付部が受け付けたユーザ識別子と対になる第二のユーザ識別子を取得し、当該第二のユーザ識別子を含むユーザ情報が有する文章群を取得するものとして、コンピュータを機能させるためのプログラムである。
(実施の形態3)
本実施の形態において、ある特定の層やグループに属する人たちの、ある事象(事象とは、商品、サービス、店舗、会社など、何でも良い)についての評価を知ることができる情報処理システム3について説明する。ここでは、ある特定の層やグループに属する人たちは、ユーザと類似する嗜好を有する人たち(ユーザと評価基準が近似する人たち)である。また、本実施の形態において、2以上のユーザが入力した情報(CGM(例えば、ブログ、SNS、Twitterなど)など)を解析した結果である、ある評価対象に対するポジティブ度やネガティブ度を用いて、評価基準が近似するユーザを検出する。なお、ポジティブ度やネガティブ度とは、評価対象の好き嫌いや、良し悪しの感情を示す度合いである。
本実施の形態において、ある特定の層やグループに属する人たちの、ある事象(事象とは、商品、サービス、店舗、会社など、何でも良い)についての評価を知ることができる情報処理システム3について説明する。ここでは、ある特定の層やグループに属する人たちは、ユーザと類似する嗜好を有する人たち(ユーザと評価基準が近似する人たち)である。また、本実施の形態において、2以上のユーザが入力した情報(CGM(例えば、ブログ、SNS、Twitterなど)など)を解析した結果である、ある評価対象に対するポジティブ度やネガティブ度を用いて、評価基準が近似するユーザを検出する。なお、ポジティブ度やネガティブ度とは、評価対象の好き嫌いや、良し悪しの感情を示す度合いである。
本実施の形態における情報処理システム3の概念図は図1である。情報処理システム3は、1以上の情報端末11、1以上の情報管理装置12、および情報処理装置33を有する。図34は、本実施の形態における情報処理装置33のブロック図である。
情報処理装置33は、ユーザ情報格納部3301、評価情報格納部1302、広告情報格納部1303、受付部3304、近似ユーザ識別子取得部3310、文章群取得部3305、評価対象取得部1306、評価取得部1307、評価出力部1308、文選択部1309、出力情報出力部1310、広告情報取得部1311、広告情報出力部1312、情報受信部1313、ユーザ情報蓄積部3316を具備する。
ユーザ情報格納部3301は、ユーザ情報を2以上格納している。ユーザ情報は、ユーザ識別子と、用語評価情報群と、文章群(文章群識別子でも良い)とを有する。用語評価情報群は、1以上の用語評価情報を有する。用語評価情報は、用語と当該用語に対するユーザの評価の組である。評価は、当該用語に対するユーザの評価に関する情報である。評価は、例えば、「+5」から「−5」の間の数値を取りえる。また、評価は、例えば、「A」「B」「C」のランクを示す情報でも良い。また、評価は、例えば、良い「1」、悪い「0」という二値の情報でも良い。その他、評価は、用語に対するユーザの評価を示す情報であれば何でも良い。ユーザ情報は、当該ユーザへの通知先を示すメールアドレスなどを有しても良い。ユーザ識別子は、例えば、ユーザIDや、URL(例えば、当該ユーザが記載しているブログのURL)や、メールアドレスや、ユーザの情報端末11のIPアドレスやMACアドレスなど、ユーザ(ユーザが保有する端末などを含む)を特定し得る情報であれば何でも良い。用語評価情報群は、ユーザの価値基準を示す情報である、と言える。用語評価情報は、例えば、「用語:ABCラーメン、評価:10」「用語:映画XXX、評価:8」「用語:田中一郎、評価:1」「用語:自動車ZZZ、評価:5」などである。なお、用語は、評価対象を示す。評価は、ユーザがポジティブに思っているか、ネガティブに思っているかの度合いを示す。ここでは、例えば、評価は、「1」から「10」であり、評価「1」は大嫌い、評価「10」は大好きであることを示す。評価「5」は、好きでも嫌いでもないことを示す。また、ユーザ情報格納部3301の用語評価情報群は、通常、自然言語処理により取得されるが、手入力や、アンケート等の回答から取得しても良い。また、用語評価情報群が自然言語処理により取得される場合、機能素解析、形態素解析等、そのアルゴリズム等は問わない。また、用語評価情報群は、個人のブログを言語解析して得られる場合や、ユーザが入力したチャット(文字列でも音声でも良い)を言語解析して得られる場合や、ユーザが入力したアンケートの回答情報を言語解析して得られる場合や、ユーザが送信した電子メールを言語解析して得られる場合などがある。つまり、用語評価情報群の取得元や取得方法は問わない。また、音声のチャットから用語評価情報群を得る場合、音声情報を音声認識し、文字コード列に変換する音声認識手段(図示しない)が必要となる。ユーザ情報格納部3301は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。ユーザ情報格納部3301にユーザ情報が記憶される過程は問わない。例えば、記録媒体を介してユーザ情報がユーザ情報格納部3301で記憶されるようになってもよく、通信回線等を介して送信されたユーザ情報がユーザ情報格納部3301で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたユーザ情報がユーザ情報格納部3301で記憶されるようになってもよい。
近似ユーザ識別子取得部3310は、受付部3304が受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、受付部3304が受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する。近似ユーザ識別子取得部3310が取得したユーザ識別子で識別されるユーザは、受付部3304が受け付けたユーザ識別子で識別されるユーザと、嗜好が近似する(評価基準が近似する)ユーザである。近似ユーザ識別子取得部3310は、通常、MPUやメモリ等から実現され得る。近似ユーザ識別子取得部3310の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
受付部3304は、ユーザ識別子を受け付ける。なお、受付部3304は、ユーザ識別子と用語とを受け付けても良い。用語とは、評価対象を示す用語である。受付部3304は、受付部3304は、無線または有線の通信手段等で実現され得る。
文章群取得部3305は、近似ユーザ識別子取得部3310が取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を、ユーザ情報格納部3301から、取得する。なお、この文章群は、ユーザと嗜好が近似する他のユーザが記載した文章群である。文章群取得部3305は、通常、MPUやメモリ等から実現され得る。文章群取得部3305の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ユーザ情報蓄積部3316は、評価取得部1307が取得した評価対象と、当該評価対象の評価を用いて、用語評価情報を構成し、当該用語評価情報をユーザ情報格納部3301に蓄積する。ユーザ情報蓄積部3316は、評価取得部1307が取得した1以上の各評価対象と、当該評価対象の評価を用いて、1以上の用語評価情報を取得し、当該1以上の用語評価情報から用語評価情報群を構成し、当該用語評価情報群をユーザ情報格納部3301に蓄積しても良い。ユーザ情報蓄積部3316は、通常、MPUやメモリ等から実現され得る。ユーザ情報蓄積部3316の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置33の用語評価情報群を蓄積する動作について、図35のフローチャートを用いて説明する。図35のフローチャートは、情報受信部1313が、ユーザ識別子と1以上の文章群を受信した後の動作であり、受信した1以上の文章群が、図示しない記憶媒体や、ユーザ情報格納部3301に格納されている、とする。
(ステップS3501)評価対象取得部1306は、カウンタkに1を代入する。
(ステップS3502)評価対象取得部1306は、k番目の評価対象が存在するか否かを判断する。k番目の評価対象が存在すればステップS3503に行き、k番目の評価対象が存在しなければステップS3506に行く。
(ステップS3503)評価対象取得部1306は、k番目の評価対象を、カレントの評価対象に決定する。なお、評価対象取得部1306は、自然言語処理(上述した機能素解析処理などを用いた処理、または形態素解析を用いた公知の処理など)により、文章群から名詞や主題、副題を構成する用語を評価対象として抽出しても良いし、予め、格納されている評価対象群から、順次、評価対象を読み出しても良い。なお、かかる場合、評価対象群は、例えば、評価対象取得部1306が保持している。
(ステップS3504)評価取得部1307は、カレントの評価対象に対する、着目しているユーザの評価を取得する。評価を取得する処理については、図10のステップS1003からステップS1023により説明した。このステップで、評価対象(用語)と評価の組である用語評価情報が得られる。
(ステップS3505)評価対象取得部1306は、カウンタkを1、インクリメントする。ステップS3502に戻る。
(ステップS3506)ユーザ情報蓄積部3316は、ステップS3504で取得された1以上の用語評価情報から用語評価情報群を構成する。
(ステップS3507)ユーザ情報蓄積部3316は、ステップS3506で構成した用語評価情報群を、ユーザ情報格納部3301に蓄積する。処理を終了する。
なお、図35のフローチャートにおいて、カレントの評価対象の取得方法は問わない。
次に、情報処理装置33の嗜好が近似するユーザの評価を出力する動作について、図36のフローチャートを用いて説明する。
(ステップS3601)受付部3304は、ユーザ識別子等を受信したか否かを判断する。ユーザ識別子等を受信すればステップS3602に行き、ユーザ識別子等を受信しなければステップS3601に戻る。なお、ユーザ識別子等とは、通常、ユーザ識別子と用語(評価を得たい対象)である。
(ステップS3602)受付部3304は、受信したユーザ識別子をメモリ上に配置する。
(ステップS3603)近似ユーザ識別子取得部3310は、ステップS3602でメモリ上に配置されたユーザ識別子と対になる用語評価情報群を、ユーザ情報格納部3301から読み出し、メモリ上に配置する。
(ステップS3604)近似ユーザ識別子取得部3310は、カウンタiに1を代入する。
(ステップS3605)近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に、i番目の用語評価情報群が存在するか否かを判断する。i番目の用語評価情報群が存在すればステップS3606に行き、i番目の用語評価情報群が存在しなければステップS3611に行く。
(ステップS3606)近似ユーザ識別子取得部3310は、i番目の用語評価情報群が、ユーザ識別子で識別されるユーザ自身の用語評価情報群であるか否かを判断する。具体的には、近似ユーザ識別子取得部3310は、i番目の用語評価情報群と対になるユーザ識別子をユーザ情報格納部3301から読み出し、当該読み出したユーザ識別子と、ステップS3601で受信したユーザ識別子を比較し、両者が同一であればi番目の用語評価情報群が、ユーザ識別子で識別されるユーザ自身の用語評価情報群である、と判断する。i番目の用語評価情報群が、ユーザ識別子で識別されるユーザ自身の用語評価情報群であればステップS3610に行き、ユーザ自身の用語評価情報群でなければステップS3607に行く。
(ステップS3607)近似ユーザ識別子取得部3310は、ステップS3603でメモリ上に配置した用語評価情報群と、i番目の用語評価情報群の近似度を算出する。近似度の算出方法は種々あるが、その一例について、図37のフローチャートを用いて説明する。
(ステップS3608)近似ユーザ識別子取得部3310は、ステップS3607で算出した近似度が閾値以内の近似度(近似している)か否かを判断する。ステップS3607で算出した近似度が閾値以内の近似度であればステップS3609に行き、閾値からはずれていればステップS3610に行く。なお、この閾値は、近似ユーザ識別子取得部3310が、予め、自身の記憶媒体に保持している、とする。
(ステップS3609)近似ユーザ識別子取得部3310は、ユーザ情報格納部3301中のi番目のユーザ情報からユーザ識別子を読み出し、メモリ上に追記する。
(ステップS3610)近似ユーザ識別子取得部3310は、カウンタiを1、インクリメントする。ステップS3605に行く。
(ステップS3611)文章群取得部3305は、ステップS3609で取得した1以上のユーザ識別子と対になる文章群を、ユーザ情報格納部3301から取得する。
(ステップS3612)評価取得部1307は、ステップS3611で取得された1以上の文章群を用いて、ユーザが入力した用語(評価の対象)に対する評価を得る。なお、評価を得るための処理は、ステップS1003からステップS1022により、説明済みである。
(ステップS3613)評価出力部1308は、ステップS3612で取得された評価を、情報端末11に送信する。処理を終了する。
なお、図36のフローチャートにおいて、近似度を算出し、近似度が閾値以内かどうかにより、両用語評価情報群が近似しているか否かを判断した。しかし、二つの用語評価情報群のうち、一定数以上の用語に対応する用語評価情報が所定以内の差である(または一致する)場合に、両用語評価情報群が近似していると判断しても良いし、二つの用語評価情報群のうち、一定割合以上の用語に対応する用語評価情報が所定以内の差である(または一致する)場合に、両用語評価情報群が近似していると判断しても良い。つまり、両用語評価情報群が近似しているか否かについて、必ずしも近似度という数値を算出する必要はなく、種々のアルゴリズムで、両者が近似しているか否かを判断しても良い。
次に、ステップS3607における近似度算出方法について、図37のフローチャートを用いて説明する。
(ステップS3701)近似ユーザ識別子取得部3310は、ステップS3603でメモリ上に配置した用語評価情報群から、ベクトルデータを構成し、メモリ上に配置する。例えば、用語評価情報群が「テレビ:5、雑誌:2、インターネット:9、新聞:3、ラジオ:1・・・」である場合、近似ユーザ識別子取得部3310は、(5、2、9、3、1・・・)というベクトルデータを構成する。
(ステップS3702)近似ユーザ識別子取得部3310は、i番目の用語評価情報群からベクトルデータを構成し、メモリ上に配置する。
(ステップS3703)近似ユーザ識別子取得部3310は、ステップS3701で構成したベクトルデータと、ステップS3702で構成したベクトルデータのコサイン値を算出し、算出結果をメモリ上に配置する。
(ステップS3704)近似ユーザ識別子取得部3310は、ステップS3703で算出したコサイン値を、近似度を算出する算出式に代入し、近似度を取得し、メモリ上に配置する。なお、近似度を算出する算出式は、例えば、コサイン値の逆数を算出する式(y=1/x[xはコサイン値])である。また、近似度を算出する算出式の情報は予め決められており、近似ユーザ識別子取得部3310は、その算出式の情報を読み出して、演算を行う。さらに、算出式は種々考えられ、その式は問わない。例えば、算出式は、両ベクトルの要素の差の絶対値の平均値や、両ベクトルの要素の差の絶対値の中間値などを算出する式でも良い。
以下、本実施の形態における情報処理システム3の具体的な動作について説明する。情報処理システム2における評価を出力する処理について、実施の形態1との相違点は、文章群の取得処理である。ここでは、文章群の取得処理について説明する。情報処理システム3の概念図は図1である。
まず、1以上のユーザの嗜好についての情報を蓄積する処理について説明する。今、辞書情報格納手段13061には、図14に示す辞書情報管理表が格納されている。また、評価情報格納部1302に図19の評価情報管理表が管理されている。また、変更情報格納手段13073に図20の変更情報管理表が管理されている。また、図示しない抽出タグ情報格納部は、図21に示す抽出タグ情報管理表を保持している。さらに、ユーザ情報格納部3301は、図38に示すようなユーザ情報管理表が格納されている。ユーザ情報管理表は、「ID」「ユーザ情報」を有するレコードを1以上格納している。「ID」は、レコードを識別する情報であり、表におけるレコード管理のために存在する。「ユーザ情報」は、「ユーザ識別子」「文章群」「用語評価情報群」の属性を有する。「ユーザ識別子」は、ここでは、ユーザが記載した文章群を識別する情報であり、ここでは、「文章群」のURL等である。「文章群」は、HTMLで記述されたファイルであり、情報管理装置12に格納されていたファイルである。「用語評価情報群」は、複数の用語評価情報を有する。また、ここでは、「用語評価情報群」は、空である。
ここで、実施の形態1で説明した処理により、情報処理装置33は、図28に示す評価管理表を得た、とする。つまり、情報処理装置33は、例えば、用語評価情報群「店舗X:2.5、店舗Y:4.8、商品G:−2.8、サービスS:1.9、・・・・」を得て、ユーザ情報管理表に、用語評価情報群を蓄積する。
次に、情報端末11のユーザと嗜好が類似する他の1以上のユーザが記載した1以上の文章群を取得する処理の具体例について説明する。
今、例えば、ユーザ情報格納部3301は、図39に示すようなユーザ情報管理表が格納されている。ユーザ情報管理表は、「ID」と「ユーザ情報」を有する。「ユーザ情報」は、「ユーザ識別子」「用語評価情報群」を有する。「ユーザ識別子」は、ここでは、ユーザが記載しているブログの所在場所を特定するURL等である。「用語評価情報群」は、複数の用語評価情報を有する。用語評価情報は、例えば、自動車XYZ(自動車XYZは商品名)の評価を示す属性である「自動車XYZ」、ゲーム機WWI(ゲーム機WWIは商品名)の評価を示す属性である「ゲーム機WWI」などがある。用語評価情報を構成する属性値(評価情報)は、ここでは、「5」から「−5」の数値を取りえる、とする。評価情報が「5」である場合、当該用語に対する評価が非常に高い(ポジティブである)ことを示す。また、評価情報が「−5」である場合、当該用語に対する評価が非常に低い(ネガティブである)ことを示す。つまり、図39において、例えば、URL「http://abc.xxx.co.jp」で特定されるブログには、「自動車XYZ」の評価が非常に高く、「ゲーム機WWI」の評価が低いことを示す文章が記載されていたこととなる。
なお、図39の用語評価情報群の評価情報は、上述したような方法により、対応するURLで特定されるブログを言語解析して得られた評価である、とする。なお、ブログを解析するアルゴリズムは、上述した機能素解析を用いた自然言語処理に限らず、既存の形態素解析などを用いて、ユーザの評価を解析することを行っても良い。かかる技術は、例えば、URL<http://blogwatcher.pi.titech.ac.jp/>に公開されている。
また、図40は、情報管理装置12の文章群格納部1201に格納されているブログ(ウェブページ)の例を示す。文章群格納部1201のブログは、例えば、URLと対にHTMLまたはXMLなどで記述されたファイルである。なお、2以上の情報管理装置12が、図40に示すブログを、分散して格納していても良いことは言うまでもない。
かかる状況において、ユーザは、情報端末11から、ユーザ識別子「http://abc.xxx.co.jp」を含む評価者特定情報と、用語「店舗X」を含む情報を入力した、とする。このユーザ識別子「http://abc.xxx.co.jp」は、情報端末11のユーザを識別する情報である。そして、このユーザが入力した要求は、自分と嗜好の似た人たちの間で、「店舗X」の評価を得ることを示す要求(命令と言っても良い。)である。
そして、端末入力受付部1101は、ユーザ識別子「http://abc.xxx.co.jp」と用語「店舗X」を含む要求を受け付ける。そして、端末情報送信部1102は、受け付けたURL「http://abc.xxx.co.jp」と用語「店舗X」を含む要求を情報処理装置33に送信する。
次に、情報処理装置33の受付部3304は、ユーザ識別子「http://abc.xxx.co.jp」と用語「店舗X」を受信する。
次に、近似ユーザ識別子取得部3310は、ユーザ識別子「http://abc.xxx.co.jp」と対になる用語評価情報群「5、−4、−3、・・・」を、ユーザ情報格納部3301から読み出し、メモリ上に配置する。
次に、近似ユーザ識別子取得部3310は、1番目の用語評価情報群から順に、用語評価情報群「5、−4、−3、・・・」との近似度を算出し、近似している用語評価情報群に対応するユーザ識別子を取得していく。その処理の詳細を、以下に説明する。
まず、1番目の用語評価情報群の処理について説明する。近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に1番目の用語評価情報群が存在するか否かを判断する。そして、1番目の用語評価情報群が存在するので、近似ユーザ識別子取得部3310は、1番目の用語評価情報群をユーザ情報格納部3301から読み出し、当該1番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるか否かを判断する。そして、1番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるので、2番目の用語評価情報群の処理に移行する。
そして、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に2番目の用語評価情報群が存在するか否かを判断する。そして、2番目の用語評価情報群が存在するので、近似ユーザ識別子取得部3310は、2番目の用語評価情報群をユーザ情報格納部3301から読み出し、当該2番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるか否かを判断する。ここで、2番目の用語評価情報群は、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群ではないと判断し、以下のように、2番目の用語評価情報群とユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報との近似度を算出する。つまり、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群からベクトルデータ(5、−4、−3、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、同様に、読み出した2番目の用語評価情報群からベクトルデータ(−2、3、5、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、2つのベクトルデータの各要素の差の平均値を算出する、とする。つまり、近似ユーザ識別子取得部3310は、近似度の算出式「f=(|i1−j1|+|i2−j2|+|i3−j3|+・・・|in−jn|)/n」の情報を予め格納しており、かかる算出式の情報を読み出し、各ベクトルデータの要素の値を代入し、算出式の演算を実行する。なお、上記算出式において、一のベクトルデータを(i1、i2、i3、・・・、in)、比較する他のベクトルデータを(j1、j2、j3、・・・、jn)である、とする。
そして、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群のベクトルデータ(5、−4、−3、・・・)と、2番目の用語評価情報群のベクトルデータ(−2、3、5、・・・)の値を、上記の算出式に代入し、「4.5」を得て、メモリ上に配置した、とする。そして、近似ユーザ識別子取得部3310は、近似するか否かを判断するための閾値「1.0」を読み出し、「4.5」は「1.0」より大きいので、両者は近似しない、と判断する。なお、近似ユーザ識別子取得部3310は、近似度が閾値「1.0」以下の場合には、両用語評価情報群は近似し、近似度が閾値「1.0」より大きい場合には、両用語評価情報群は近似しない、と判断する、とする。
次に、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に3番目の用語評価情報群が存在するか否かを判断する。そして、3番目の用語評価情報群が存在するので、近似ユーザ識別子取得部3310は、3番目の用語評価情報群を読み出し、当該3番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるか否かを判断する。ここで、3番目の用語評価情報群は、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群ではないと判断し、以下のように、3番目の用語評価情報群とユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報との近似度を算出する。つまり、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群からベクトルデータ(5、−4、−3、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、同様に、読み出した3番目の用語評価情報群からベクトルデータ(−5、0、5、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、2つのベクトルデータの各要素の差の平均値を算出する、とする。つまり、近似ユーザ識別子取得部3310は、上記と同様のアルゴリズムで、近似度を「5.1」と算出した、とする。そして、近似ユーザ識別子取得部3310は、近似するか否かを判断するための閾値「1.0」を読み出し、「5.1」は「1.0」より大きいので、両者は近似しない、と判断する。
次に、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に4番目の用語評価情報群が存在するか否かを判断する。そして、4番目の用語評価情報群が存在するので、近似ユーザ識別子取得部3310は、4番目の用語評価情報群を読み出し、当該4番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるか否かを判断する。ここで、4番目の用語評価情報群は、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群ではないと判断し、以下のように、4番目の用語評価情報群とユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報との近似度を算出する。つまり、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群からベクトルデータ(5、−4、−3、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、同様に、読み出した4番目の用語評価情報群からベクトルデータ(4、5、−1、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、2つのベクトルデータの各要素の差の平均値を算出する、とする。つまり、近似ユーザ識別子取得部3310は、上記と同様のアルゴリズムで、近似度を「3.6」と算出した、とする。そして、近似ユーザ識別子取得部3310は、近似するか否かを判断するための閾値「1.0」を読み出し、「3.6」は「1.0」より大きいので、両者は近似しない、と判断する。
次に、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301に5番目の用語評価情報群が存在するか否かを判断する。そして、5番目の用語評価情報群が存在するので、近似ユーザ識別子取得部3310は、5番目の用語評価情報群を読み出し、当該5番目の用語評価情報群が、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群であるか否かを判断する。ここで、5番目の用語評価情報群は、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群ではないと判断し、以下のように、5番目の用語評価情報群とユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報との近似度を算出する。つまり、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群からベクトルデータ(5、−4、−3、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、同様に、読み出した5番目の用語評価情報群からベクトルデータ(5、−5、−4、・・・)を構成する。そして、近似ユーザ識別子取得部3310は、2つのベクトルデータの各要素の差の平均値を算出する、とする。つまり、近似ユーザ識別子取得部3310は、上記と同様のアルゴリズムで、近似度を「0.8」と算出した、とする。そして、近似ユーザ識別子取得部3310は、近似するか否かを判断するための閾値「1.0」を読み出し、「0.8」は「1.0」以下であるので、両者は近似する、と判断する。そして、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301中の5番目のユーザ情報から、ユーザ情報識別子「http://ppp.rrr.co.jp」を読み出す。
以後、同様に、近似ユーザ識別子取得部3310は、ユーザ情報格納部3301中のすべての用語評価情報群をチェックし、ユーザ識別子「http://abc.xxx.co.jp」で識別されるユーザ自身の用語評価情報群と類似するか否かを判断し、類似する用語評価情報群に対応するユーザ情報識別子を取得する。その結果、近似ユーザ識別子取得部3310は、このユーザ識別子「http://ppp.rrr.co.jp」を含む3つのユーザ識別子(例えば、「http://ppp.rrr.co.jp」、「1234」、「tanaka@cc.co.jp」)を取得し、メモリ上に配置した、とする。なお、上記の処理において、近似ユーザ識別子取得部3310は、ユーザの用語評価情報群からベクトルデータ(5、−4、−3、・・・)を構成する処理を、複数回行っているが、一度構成したベクトルデータを二度目以降は利用することがさらに望ましい。なお、ユーザ識別子「1234」は、例えば、SNSのユーザIDである。また、ユーザ識別子「tanaka@cc.co.jp」は、メールアドレスである。
次に、文章群取得部3305は、取得した3つのユーザ識別子(「http://ppp.rrr.co.jp」、「1234」、「tanaka@cc.co.jp」)と対になる文章群を、ユーザ情報格納部3301から取得する。
次に、評価取得部1307は、取得した文章群を用いて、ユーザが入力した用語「店舗X」に対する評価を得る。なお、評価を得るための処理は説明済みである。
そして、評価出力部1308は、評価取得部1307が得た「店舗X」に対する評価を、情報端末11に送信する。
次に、情報端末11の端末情報受信部1103は、「店舗X」に対する評価を受信し、端末出力部1105は、当該評価を出力する。評価の出力態様は、問わない。
以上、本実施の形態によれば、自分と類似する嗜好を有する人たちの、ある事象に対する評価を知ることができる。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、評価者を特定する情報である評価者特定情報を受け付ける受付部と、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納している記憶媒体から、前記評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語と、評価対象の良し悪しに関する用語である評価語を有する評価情報を用いて、評価を取得する評価取得部と、前記評価取得部が取得した評価対象の評価を出力する評価出力部として機能させるためのプログラムである。
また、上記プログラムにおいて、前記ユーザ情報は、ユーザを識別するユーザ識別子と、用語と当該用語に対する前記ユーザの評価の組である1以上の用語評価情報である用語評価情報群と、文章群とを有し、前記受付部は、ユーザ識別子を受け付け、前記受付部が受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、前記受付部が受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する近似ユーザ識別子取得部をさらに具備し、前記文章群取得部は、前記近似ユーザ識別子取得部が取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を取得するものとして、コンピュータを機能させるためのプログラムであることは好適である。
また、上記の実施の形態において、ある特定の層やグループに属する人たちの、ある事象についての評価を知ることができる情報処理システムについて説明した。ここで、情報端末11のユーザは、図41に示す入力画面から、評価を知りたい人格(大衆、知人、同様の嗜好の者、権威者のうちのいずれか)を選択しても良い。そして、図41に示す入力画面では、評価対象も「店舗X」と入力している。そして、図41において、知人、同様の嗜好の者、権威者が選択されている。知人は実施の形態2、同様の嗜好の者は実施の形態3、権威者は実施の形態1で、それぞれの評価の取得方法を説明した。なお、評価を知りたい人格が「大衆」である場合、例えば、情報処理装置は、情報処理装置が取得でき得るすべての文章群を対象にして、事象に対する評価を取得する。また、評価を知りたい人格が「大衆」である場合、例えば、情報処理装置は、権威者を除いたユーザが記載したすべての文章群を対象にして、事象に対する評価を取得しても良い。
かかる場合、情報処理システムの受付部は、人格を示す情報(大衆(例えば「1」)、知人(例えば「2」)、同様の嗜好の者(例えば「3」)、権威者(例えば「4」)のうちのいずれか)をも受け付け、受け付けた人格を示す情報に応じて、上記の実施の形態において説明した情報処理装置の処理を行えばよい。
情報端末11のユーザが図41に示す入力画面により、「店舗X」の評価の取得を行った場合、情報処理装置は、実施の形態1、2、3で説明した処理を行い、3つの人格における評価を取得し、情報端末11に送信する。情報端末11は、3つの人格における評価を受信し、出力する。かかる出力例が図42である。図42において、「店舗X」の知人の評価、「店舗X」の価値基準が一致する人の評価、「店舗X」の「ラーメン」の権威者の評価が表示されている。
また、図43は、本明細書で述べたプログラムを実行して、上述した実施の形態の情報処理装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図43は、このコンピュータシステム340の概観図であり、図44は、コンピュータシステム340のブロック図である。
図43において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
図44において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3413に加えて、CPU(Central Processing Unit)3413と、CD−ROMドライブ3413及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の情報処理装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3413またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の情報処理装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(端末情報送信部、端末情報受信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置は、ある特定の層やグループ等に属する人たちの、ある事象についての評価を知ることができるという効果を有し、評判解析システム等として有用である。
1、2、3 情報処理システム
11 情報端末
12 情報管理装置
13、23、33 情報処理装置
1101 端末入力受付部
1102 端末情報送信部
1103 端末情報受信部
1104 端末処理部
1105 端末出力部
1201 文章群格納部
1202 送信要求受信部
1203 文章群読出部
1204 文章群送信部
1301、3301 ユーザ情報格納部
1302 評価情報格納部
1303 広告情報格納部
1304、2304、3304 受付部
1305、2305、3305 文章群取得部
1306 評価対象取得部
1307 評価取得部
1308 評価出力部
1309 文選択部
1310 出力情報出力部
1311 広告情報取得部
1312 広告情報出力部
1313 情報受信部
1314 権威判断部
1315 ユーザ情報構成部
1316、3316 ユーザ情報蓄積部
2301 知人管理部
3310 近似ユーザ識別子取得部
13061 辞書情報格納手段
13062 文分割制御手段
13063 評価対象取得手段
13071 スコア取得手段
13072 評価算出手段
13073 変更情報格納手段
13074 変更語取得手段
13075 評価変更情報取得手段
13076 変更スコア算出手段
13141 用語取得手段
13142 出現頻度取得手段
13143 文章群数取得手段
13144 更新頻度情報取得手段
13145 非リンク数取得手段
13146 トラックバック数取得手段
13147 コメント数取得手段
13148 権威判断手段
130621 要素分割手段
130622 要素連結手段
130623 文字列取得手段
11 情報端末
12 情報管理装置
13、23、33 情報処理装置
1101 端末入力受付部
1102 端末情報送信部
1103 端末情報受信部
1104 端末処理部
1105 端末出力部
1201 文章群格納部
1202 送信要求受信部
1203 文章群読出部
1204 文章群送信部
1301、3301 ユーザ情報格納部
1302 評価情報格納部
1303 広告情報格納部
1304、2304、3304 受付部
1305、2305、3305 文章群取得部
1306 評価対象取得部
1307 評価取得部
1308 評価出力部
1309 文選択部
1310 出力情報出力部
1311 広告情報取得部
1312 広告情報出力部
1313 情報受信部
1314 権威判断部
1315 ユーザ情報構成部
1316、3316 ユーザ情報蓄積部
2301 知人管理部
3310 近似ユーザ識別子取得部
13061 辞書情報格納手段
13062 文分割制御手段
13063 評価対象取得手段
13071 スコア取得手段
13072 評価算出手段
13073 変更情報格納手段
13074 変更語取得手段
13075 評価変更情報取得手段
13076 変更スコア算出手段
13141 用語取得手段
13142 出現頻度取得手段
13143 文章群数取得手段
13144 更新頻度情報取得手段
13145 非リンク数取得手段
13146 トラックバック数取得手段
13147 コメント数取得手段
13148 権威判断手段
130621 要素分割手段
130622 要素連結手段
130623 文字列取得手段
Claims (33)
- 1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納し得るユーザ情報格納部と、
評価対象の良し悪しに関する用語である評価語を有する評価情報を1以上格納している評価情報格納部と、
評価者を特定する情報である評価者特定情報を受け付ける受付部と、
前記評価者特定情報で特定される評価者が記載した文章群を、前記ユーザ情報格納部から取得する文章群取得部と、
前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、
前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語を用いて評価を取得する評価取得部と、
前記評価取得部が取得した評価対象の評価を出力する評価出力部を具備する情報処理装置。 - 前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象が含まれる文を取得する文選択部と、
前記文選択部が取得した文を含む出力情報を構成し、出力する出力情報出力部とをさらに具備する請求項1記載の情報処理装置。 - 前記ユーザ情報は、
文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、
前記評価取得部は、
前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、
前記文選択部は、
前記評価の遷移から、一定以上の評価の上昇が見られる評価対象が含まれる文の一部を取得する請求項2記載の情報処理装置。 - 広告情報を格納している広告情報格納部と、
前記評価出力部が出力した評価を受け付け、当該評価を用いて、評価対象を選択し、当該評価対象に対応する広告情報を取得する広告情報取得部と、
前記広告情報取得部が取得した広告情報を出力する広告情報出力部とをさらに具備する請求項1記載の情報処理装置。 - 前記ユーザ情報は、
文章群とユーザ識別子と、当該文章群が記載された時刻に関する情報である時刻情報とを有し、
前記評価取得部は、
前記時刻情報が示す時刻に対応する各時間幅に対して、1以上の評価語を取得し、当該1以上の評価語を用いて評価の遷移を取得し、
前記広告情報取得部は、
前記評価の遷移から、一定以上の評価の上昇が見られる評価対象を選択し、当該評価対象に対応する広告情報を取得する請求項4記載の情報処理装置。 - 前記評価対象取得部は、
第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、
前記1以上の各文について、当該各文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、
前記文分割制御手段が取得した第二文字列の種類から評価対象を含む第二文字列を特定し、当該第二文字列から評価対象を取得する評価対象取得手段とを具備する請求項1から請求項5いずれか記載の情報処理装置。 - 前記文分割制御手段は、
前記文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、
前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に当該文字列が存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、
文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、
文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、
前記要素分割手段が未知語情報を付与した連続する未知語でありひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、
前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、
隣接する前記要素分割手段が分割した要素またはまとまり情報が有する、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号を読み出し、
当該前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、
連結可能な要素またはまとまり情報を一つの文字列にまとめて、複数の第二文字列を取得する要素連結手段と、
前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、
当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する請求項6記載の情報処理装置。 - 前記評価情報は、
評価対象の良し悪しに関する用語である評価語、および良し悪しの程度を示すスコアを対に有し、
前記評価取得部は、
前記評価対象を含む第二文字列を有する文中の他の第二文字列の種類を用いて評価語を含み得る第二文字列を特定し、当該第二文字列が有する評価語を前記評価情報格納部から検索し、当該検索した評価語と対になるスコアを前記評価情報格納部から取得するスコア取得手段と、
前記評価対象取得手段が取得した同一の評価対象についての1以上のスコアを用いて、当該評価対象についての評価を算出する評価算出手段とを具備する請求項1から請求項7いずれか記載の情報処理装置。 - 前記評価取得部は、
評価語に対する評価の変更を示す言い回しの用語である変更語、および評価を変更するための情報である評価変更情報の対である変更情報を1以上格納している変更情報格納手段と、
評価語から所定以内の文字数の距離内にある変更語を取得する変更語取得手段と、
前記変更語と対になる評価変更情報を取得する評価変更情報取得手段と、
前記スコア取得手段が取得したスコアに対して、前記評価変更情報取得手段が取得した評価変更情報を用いて、スコアを変更し、新たなスコアを算出する変更スコア算出手段とをさらに具備し、
前記評価算出手段は、
前記評価対象取得部が取得した同一の評価対象についての1以上のスコア、および前記変更スコア算出手段が算出した同一の評価対象についての1以上の新たなスコアを用いて、当該評価対象についての評価を算出する請求項8記載の情報処理装置。 - 前記ユーザ情報格納部は、
ユーザを識別するユーザ識別子と、前記ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、前記ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有するユーザ情報を2以上格納しており、
前記文章群取得部は、
前記評価対象に対応する用語と対になる文章群を、前記ユーザ情報格納部から取得する請求項1から請求項9いずれか記載の情報処理装置。 - ユーザ識別子と1以上の文章識別子と1以上の文章群を受信する情報受信部と、
前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、用語の出現頻度を取得し、当該出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断部と、
前記権威判断部が、前記ユーザが前記用語に対応する事象に対して権威者であると判断した場合、前記ユーザ識別子と、前記用語と、前記文章群識別子を用いて、ユーザ情報を構成するユーザ情報構成部と、
前記ユーザ情報構成部が構成したユーザ情報を、前記ユーザ情報格納部に蓄積するユーザ情報蓄積部をさらに具備する請求項10記載の情報処理装置。 - 前記権威判断部は、
前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、
すべての文章群に対して、前記用語が出現する文章群の数を取得する文章群数取得手段と、
前記出現頻度と前記文章群の数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項11記載の情報処理装置。 - 前記文章群はブログであり、
前記権威判断部は、
前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、
前記ユーザ識別子で識別されるユーザが記載したブログの更新頻度の情報を取得する更新頻度情報取得手段と、
前記出現頻度と前記更新頻度の情報を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項11記載の情報処理装置。 - 前記文章群はブログであり、
前記権威判断部は、
前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、
前記ブログがリンクを張られている数である非リンク数を取得する非リンク数取得手段と、
前記出現頻度と前記非リンク数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項11記載の情報処理装置。 - 前記文章群はブログであり、
前記権威判断部は、
前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、
前記ブログのトラックバック数を取得するトラックバック数取得手段と、
前記出現頻度と前記トラックバック数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項11記載の情報処理装置。 - 前記文章群はブログであり、
前記権威判断部は、
前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語の出現頻度を取得する出現頻度取得手段と、
前記ブログに対するコメント数を取得するコメント数取得手段と、
前記出現頻度と前記コメント数を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項11記載の情報処理装置。 - 前記権威判断部は、
第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納手段と、
前記文章群に含まれる文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御手段と、
前記文分割制御手段が取得した第二文字列の種類から用語を含む第二文字列を特定し、当該第二文字列から用語を取得する用語取得手段と、
前記情報受信部が受信した1以上の文章群であり、前記ユーザ識別子で識別されるユーザが記載した文章群から、前記用語取得手段が取得した用語の出現頻度を取得する出現頻度取得手段と、
前記出現頻度を用いて、前記ユーザが前記用語に対応する対象に対して権威であるか否かを判断する権威判断手段を具備する請求項10記載の情報処理装置。 - 前記文分割制御手段は、
前記文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、
前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、
文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、
文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、
前記要素分割手段が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、
前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、
隣接する2つの、前記要素分割手段が分割した要素またはまとまり情報を読み出し、
当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、
連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数取得する要素連結手段と、
前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、
当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する請求項17記載の情報処理装置。 - 第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である知人情報を1以上の格納している知人管理部をさらに具備し、
前記受付部は、
ユーザ識別子を受け付け、
前記文章群取得部は、
前記受付部が受け付けたユーザ識別子と対になる第二のユーザ識別子を含むユーザ情報が有する文章群を取得する請求項1から請求項9いずれか記載の情報処理装置。 - 前記ユーザ情報格納部は、
ユーザを識別するユーザ識別子と、用語と当該用語に対する前記ユーザの評価の組である1以上の用語評価情報である用語評価情報群と、文章群とを有するユーザ情報を2以上格納しており、
前記受付部は、
ユーザ識別子を受け付け、
前記受付部が受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、前記受付部が受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する近似ユーザ識別子取得部をさらに具備し、
前記文章群取得部は、
前記近似ユーザ識別子取得部が取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を取得する請求項1から請求項9いずれか記載の情報処理装置。 - ユーザ識別子と1以上の文章識別子と1以上の文章群を受信する情報受信部をさらに具備し、
前記評価対象取得部は、前記情報受信部が受信した1以上の文章群が有する1以上の文からも、評価の対象物である評価対象を1以上取得し、
前記評価取得部が取得した1以上の各評価対象を前記用語とし、当該評価対象の評価を評価情報として、1以上の用語評価情報を取得し、当該1以上の用語評価情報から用語評価情報群を構成し、当該用語評価情報群を前記ユーザ情報格納部に蓄積するユーザ情報蓄積部をさらに具備する請求項20記載の情報処理装置。 - 前記文分割制御部は、
前記文格納部の文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、
前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納手段に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納手段に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、
文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納手段から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、
文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、
前記要素分割手段が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、
前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、
隣接する2つの、前記要素分割手段が分割した要素またはまとまり情報を読み出し、
当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、
連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数の取得する要素連結手段と、
前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、
当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する請求項21記載の情報処理装置。 - 評価語に対する評価の変更を示す言い回しの用語である変更語、および評価を変更するための情報である評価変更情報の対である変更情報を1以上格納している変更情報格納部と、
評価語から所定以内の文字数の距離内にある変更語を取得する変更語取得部と、
前記変更語と対になる評価変更情報を取得する評価変更情報取得部と、
前記スコア取得部が取得したスコアに対して、前記評価変更情報取得部が取得した評価変更情報を用いて、スコアを変更し、新たなスコアを算出する変更スコア算出部とをさらに具備し、
前記評価算出部は、
前記評価対象取得部が取得した同一の評価対象についての1以上のスコア、および前記変更スコア算出部が算出した同一の評価対象についての1以上の新たなスコアを用いて、当該評価対象についての評価を算出する請求項21または請求項22記載の情報処理装置。 - 前記受付部は、
2以上の評価者特定情報から、ユーザにより選択された一の評価者特定情報を受け付ける請求項1から請求項23いずれか記載の情報処理装置。 - 前記受付部は、
評価対象をも受け付ける請求項1から請求項23いずれか記載の情報処理装置。 - 受付部、文章群取得部、評価対象取得部、評価取得部、および評価出力部により実現される情報処理方法であって、
前記受付部により、評価者を特定する情報である評価者特定情報を受け付ける受付ステップと、
前記文章群取得部により、1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納している記憶媒体から、前記評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得ステップと、
前記評価対象取得部により、前記文章群取得ステップで取得された文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得ステップと、
前記評価取得部により、前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語と、評価対象の良し悪しに関する用語である評価語を有する評価情報を用いて、評価を取得する評価取得ステップと、
前記評価出力部により、前記評価取得ステップで取得された評価対象の評価を出力する評価出力ステップを具備する情報処理方法。 - 前記ユーザ情報は、
ユーザを識別するユーザ識別子と、前記ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、前記ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有し、
前記文章群取得部は、
前記評価対象に対応する用語と対になる文章群を、前記記憶媒体から取得する請求項26記載の情報処理方法。 - 前記受付部は、
ユーザ識別子を受け付け、
前記文章群取得部は、
第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である1以上の知人情報が格納されている記憶媒体から、前記受付部が受け付けたユーザ識別子と対になる第二のユーザ識別子を取得し、当該第二のユーザ識別子を含むユーザ情報が有する文章群を取得する請求項26記載の情報処理方法。 - さらに近似ユーザ識別子取得部により実現される請求項26記載の情報処理方法であって、
前記ユーザ情報は、
ユーザを識別するユーザ識別子と、用語と当該用語に対する前記ユーザの評価の組である1以上の用語評価情報である用語評価情報群と、文章群とを有し、
前記受付ステップは、
ユーザ識別子を受け付け、
前記近似ユーザ識別子取得部により、前記受付ステップで受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、前記受付ステップで受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する近似ユーザ識別子取得ステップをさらに具備し、
前記文章群取得ステップは、
前記近似ユーザ識別子取得ステップで取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を取得する請求項26記載の情報処理方法。 - コンピュータを、
評価者を特定する情報である評価者特定情報を受け付ける受付部と、
1以上の文を有する文章群と、当該文章群を記載したユーザを識別するユーザ識別子とを有するユーザ情報を格納している記憶媒体から、前記評価者特定情報で特定される評価者が記載した文章群を取得する文章群取得部と、
前記文章群取得部が取得した文章群が有する1以上の文から、評価の対象物である評価対象を取得する評価対象取得部と、
前記評価対象を含む1以上の文の中から1以上の評価語を取得し、当該1以上の評価語と、評価対象の良し悪しに関する用語である評価語を有する評価情報を用いて、評価を取得する評価取得部と、
前記評価取得部が取得した評価対象の評価を出力する評価出力部として機能させるためのプログラム。 - 前記ユーザ情報は、
ユーザを識別するユーザ識別子と、前記ユーザが権威である対象を示す用語と、当該用語が記載された文の集合であり、前記ユーザが記載した文の集合である文章群と、当該文章群を特定する情報である文章群識別子とを有し、
前記文章群取得部は、
前記評価対象に対応する用語と対になる文章群を、前記記憶媒体から取得するものとしてコンピュータを機能させるための請求項30記載のプログラム。 - 前記受付部は、
ユーザ識別子を受け付け、
前記文章群取得部は、
第一のユーザ識別子と、第一のユーザ識別子で識別されるユーザの知人を識別する第二のユーザ識別子を1以上有する情報である1以上の知人情報が格納されている記憶媒体から、前記受付部が受け付けたユーザ識別子と対になる第二のユーザ識別子を取得し、当該第二のユーザ識別子を含むユーザ情報が有する文章群を取得するものとして、コンピュータを機能させるための請求項30記載のプログラム。 - 前記ユーザ情報は、
ユーザを識別するユーザ識別子と、用語と当該用語に対する前記ユーザの評価の組である1以上の用語評価情報である用語評価情報群と、文章群とを有し、
前記受付部は、
ユーザ識別子を受け付け、
前記受付部が受け付けたユーザ識別子で識別されるユーザを除く他のユーザを識別する1以上のユーザ識別子と対になる1以上の用語評価情報群から、前記受付部が受け付けたユーザ識別子と対になる用語評価情報群に近似する用語評価情報群を決定し、当該近似する用語評価情報群と対になる1以上のユーザ識別子を取得する近似ユーザ識別子取得部をさらに具備し、
前記文章群取得部は、
前記近似ユーザ識別子取得部が取得した1以上の各ユーザ識別子を含むユーザ情報が有する文章群を取得するものとして、コンピュータを機能させるための請求項30記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008069169A JP2009223749A (ja) | 2008-03-18 | 2008-03-18 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008069169A JP2009223749A (ja) | 2008-03-18 | 2008-03-18 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009223749A true JP2009223749A (ja) | 2009-10-01 |
Family
ID=41240431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008069169A Pending JP2009223749A (ja) | 2008-03-18 | 2008-03-18 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009223749A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257804A (ja) * | 2010-06-04 | 2011-12-22 | Nippon Hoso Kyokai <Nhk> | 番組推薦装置及び番組推薦プログラム |
JP2015007928A (ja) * | 2013-06-26 | 2015-01-15 | カシオ計算機株式会社 | 情報処理装置、コンテンツ課金システム及びプログラム |
JP2016157182A (ja) * | 2015-02-23 | 2016-09-01 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2017224335A (ja) * | 2017-08-09 | 2017-12-21 | カシオ計算機株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2019046043A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
US10348745B2 (en) | 2017-01-05 | 2019-07-09 | Cisco Technology, Inc. | Associating a user identifier detected from web traffic with a client address |
JP2019194793A (ja) * | 2018-05-02 | 2019-11-07 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
-
2008
- 2008-03-18 JP JP2008069169A patent/JP2009223749A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257804A (ja) * | 2010-06-04 | 2011-12-22 | Nippon Hoso Kyokai <Nhk> | 番組推薦装置及び番組推薦プログラム |
JP2015007928A (ja) * | 2013-06-26 | 2015-01-15 | カシオ計算機株式会社 | 情報処理装置、コンテンツ課金システム及びプログラム |
JP2016157182A (ja) * | 2015-02-23 | 2016-09-01 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10348745B2 (en) | 2017-01-05 | 2019-07-09 | Cisco Technology, Inc. | Associating a user identifier detected from web traffic with a client address |
US11394728B2 (en) | 2017-01-05 | 2022-07-19 | Cisco Technology, Inc. | Associating a user identifier detected from web traffic with a client address |
JP2017224335A (ja) * | 2017-08-09 | 2017-12-21 | カシオ計算機株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2019046043A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
JP2019194793A (ja) * | 2018-05-02 | 2019-11-07 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
JP5355949B2 (ja) | 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム | |
JP4471737B2 (ja) | グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム | |
CN101267518B (zh) | 从内容元数据提取相关信息的方法和装置 | |
KR101064634B1 (ko) | 유저 맞춤형 컨텐츠 제공 방법 및 시스템 | |
JP5550669B2 (ja) | 検索装置、検索方法およびプログラム | |
JP2009223749A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN104903886A (zh) | 基于社交图谱信息的结构化搜索查询 | |
JP2012530988A (ja) | コミュニティ交流の意味解析を使用するアドバイザ・アシスタント | |
AU2018250372B2 (en) | Method to construct content based on a content repository | |
JP2008107904A (ja) | テキスト及びアニメーションサービス装置及びコンピュータプログラム | |
KR101250520B1 (ko) | 감성 기반의 커뮤니티 형성 시스템, 커뮤니티 형성이 가능한 통신 단말기 및 그 커뮤니티 형성방법 | |
JP4744404B2 (ja) | 評価出力装置、評価出力方法、およびプログラム | |
JP2009193133A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2008299753A (ja) | 広告出力システム、サーバ装置、広告出力方法、およびプログラム | |
KR102252522B1 (ko) | 내용 기반 동영상 목차 자동생성 방법 및 시스템 | |
JP4853915B2 (ja) | 検索システム | |
JP2009122738A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2020201738A (ja) | 情報処理装置及び情報処理プログラム | |
JP2017134675A (ja) | 情報検索装置及びプログラム | |
KR101308821B1 (ko) | 검색엔진용 키워드 추출 시스템 및 추출 방법 | |
KR100832859B1 (ko) | 모바일 웹 콘텐츠 서비스 시스템 및 그 방법 | |
JP5134882B2 (ja) | コンテンツ管理装置 | |
JP2008139942A (ja) | 情報処理装置、情報処理方法、および、プログラム | |
KR102279125B1 (ko) | 취향필터에 기반한 추천 정보 제공 단말 및 장치 |