JP2012221222A

JP2012221222A - 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法

Info

Publication number: JP2012221222A
Application number: JP2011086407A
Authority: JP
Inventors: Atsushi Fujimoto; 淳富士本; Masayuki Nonaka; 誠之野中; Yutaka Katsukura; 裕勝倉
Original assignee: Universal Entertainment Corp; P to PA Inc
Current assignee: Universal Entertainment Corp; P to PA Inc
Priority date: 2011-04-08
Filing date: 2011-04-08
Publication date: 2012-11-12
Anticipated expiration: 2031-04-08
Also published as: US20190012376A1; US10055487B2; US20140019464A1; JP5872183B2; WO2012137782A1; CN103635898A; CN103635898B

Abstract

【課題】
嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる監視システム、あるいはこの監視システムを実現するために必要となる当該情報の可視化システムや当該情報の可視化機能を提供する。
【解決手段】
基幹システムに参加し構成する多数の個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解した分解テキストデータから、対象についてコミュニティ毎に特徴付けられる所定の関連条件と対象の属性についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し、対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出して、所定の特異性を検出して可視化し、監視すべき個人と監視の制御をする監視内容とを決定する。
【選択図】図１

Description

ネットワークを介して取得したテキストを監視するシステムに関する。

従来、ネットワークを介して提供される情報のうち不適切であると判別した情報の提供を阻止する方法や装置があった（たとえば、特許文献１参照）。この方法や装置は、ネットワークを介して提供される情報のうち、有害と思われる情報を子供などが視認できないようにするためのものである。ネットワークを介して提供される情報から単語を抽出し、抽出した単語の各々に対する重みを、予め求めて記憶しておいた単語リストから読み出し、阻止するか否かを判断するものであった。

特開２００１−２８００６号公報

従来の検閲システムでは、不適切と思われる単語が明快に現れる情報に対しては有効であるものの、検閲の場において抑圧されたり変形して放出されたりする情報に対しては全く無力であった。ここで、検閲の場とは、たとえば、利用者によって提供される検閲の対象となるテキストの集まり（collection）から構成される空間である。

したがって、従来までの情報サービスを提供する基幹システムにおいては、その基幹システムの利用者が参加するコミュニティ毎に形成される検閲の場において抑圧されたり変形して放出されたりする個別の嗜好情報に関しては、それを扱うための手法が確立されておらず、不作為のままで放置されることが多かった。

例えば、上記の基幹システムが利用者からの質問に答える人工知能システムである場合には、検閲の場に存在する嗜好情報は不作為のままで放置され、検閲の場における検閲機能が欠如したままで利用者からの質問に答えるのみであった。

本発明は、上述の点に鑑みてなされたものであり、その目的とするところは、嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる情報処理システム、あるいはこの情報処理システムを実現するために必要となる当該情報の可視化システムや当該情報の可視化機能を提供することにある。

本実施の形態による情報処理システムは、
個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第１抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
前記第１抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第２抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する。

嗜好情報のように、検閲の場において抑圧されたり変形して放出されたりしている情報に対しても適切に対応できる。

本実施の形態による可視化システム及び検閲システムを用いた基幹システムの概略を示すブロック図（ａ）と、可視化システムの概略を示すブロック図（ｂ）とである。本実施の形態による嗜好可視化システム及び検閲システムにおける処理の概要を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける処理の概要を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける検閲の場の概略を示す図（ａ）と、検閲の場の時間変化を示す図（ｂ）である。本実施の形態の嗜好可視化システム（検閲システム）が接続されたネットワークの例を示す図である。本実施の形態による嗜好可視化システム及び検閲システムの概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける部分空間生成装置の概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける候補空間生成装置の概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける監視空間生成装置の概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける履歴可視化装置の概略を示すブロック図である。オンライン利用可能な嗜好可視化システム（検閲システム）の概要を示すブロック図である。オンライン利用可能な嗜好可視化システム（検閲システム）における部分空間生成装置の概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける監視装置の概略を示すブロック図である。本実施の形態による嗜好可視化システム及び検閲システムにおける検閲制御装置の概略を示すブロック図である。第１の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。第２の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。第３の実施例の嗜好可視化システム及び検閲システムを示すブロック図である。

以下に、本発明の実施例について図面に基づいて説明する。

＜＜＜本実施の形態の概略＞＞＞
図１（ａ）は、本実施の形態による可視化システム及び検閲システムを用いた基幹システムの概略を示すブロック図である。

基幹システムの顧客（個人）は、Ｗｅｂ画面上の入力Ｂｏｘやメールやブログや掲示板やTwitterなどで各種のテキストデータの入力をする。これが個人の発話となる。これらのテキストデータは、基幹システムが取得する。一般に、個人の発話は、テキストデータとして、ネットワークを介して読み取り可能な状態に基幹システムのサーバに記憶される。

基幹システムは、主にＥＣサイト、ＳＮＳ、検索サイト、人口知能サイトなどのサービスを提供するシステムである。基幹システムは、基幹システムの顧客に対して、基幹システムに応じて個別サービス（基幹サービス）を提供する。なお、ＥＣサイトは、主として、ネットワークを利用して自社の商品やサービスを販売するサイトである。また、ＳＮＳは、主として、人と人とのコミュニケーションを図ることができるように、社会的ネットワークを各種のネットワークを用いて形成するサービスである。検索サイトは、各種の情報を取得するために、主として目的とするＷＥＢを探すためのサービスを提供するサイトである。また、人工知能は、ネットワークを介して、自動的に会話をすることができるサービスを提供するように構成されたサイトである。

基幹システムは、基幹システムの顧客についての個人情報を記憶するデータベースを有する。個人情報は、顧客の実名や住所など、基幹システムが提供するサービスに必要な顧客に関する情報である。

基幹システムは、顧客から取得した発話を検閲システムに供給する。検閲システムは、各種の検閲制御をするためのデータベースを有する。検閲システムでは、後述するように、検閲の場を生成し、検閲制御をするためのデータベースを参照して、基幹システムに適合した検閲制御（個別サービス）を提供する。たとえば、新製品に興味があると判断された顧客には、新製品に関する各種の情報を提供する。また、精神的・心理的に負担がかかっている顧客には、心を安らかにするような情報や音楽や動画などを提供する。さらに、反社会的・反常識的な発話をするものには、ネットワークの接続を遮断するなど、各種のサービスを中止できるようにする。

検閲システムは、顧客から取得した発話に関して検閲のための情報を可視化システムに供給する。可視化システムは、供給された検閲のための情報から履歴情報を蓄積するとともに、履歴情報から監視情報を生成し、検閲システムに供給する。検閲システムは、供給された監視情報に基づいて、上述した検閲制御（個別サービス）を基幹システムに提供する。

図１（ｂ）は、本実施の形態による可視化システムの概略を示すブロック図である。可視化システムは、検閲の場生成機能と、可視化機能と、監視機能とからなる。検閲の場生成機能は、個人の発話から検閲の場を生成する機能である。可視化機能は、生成した検閲の場から発話について特異性を検出して特異性を可視化するための機能である。監視機能は、特異性が検出された発話について、主として発話の個人について監視する機能である。

図２Ａ及び図２Ｂは、本実施の形態による嗜好可視化システム及び検閲システムの概略を示すブロック図である。

＜＜第１の態様＞＞
本実施の形態の第１の態様によれば、
複数の文字列からなるテキストデータを含む一つの外部情報を、入力インターフェイスを通じて受信し、その内容の特異な情報を抽出するためのプログラムを実行するコンピュータを備えたシステムであって、このコンピュータは前記プログラムを実行して以下の処理を実行する。
入力されたテキストデータを捨象して予め用意された複数の関連テキストデータに変換する処理と、
その一つの外部情報に関連テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす場合には、その関連データを特異な関連テキストデータとして判定する処理と、
特異な関連テキストデータとして判定した関連テキストデータを、その外部情報に含まれる個人を識別するためのユーザＩＤ及び特異条件に関わる条件と関連して記憶する処理とを含む。

たとえば、特定の個人の会話に頻繁に出てくる表現をその個人に対して特異なものとして捉えるという新たな嗜好抽出機能を持つことによって、その個人が好きな食べ物、趣味、或いは、興味のあるジャンルを間接的に割り出すことが可能となる。

＜＜第２の態様＞＞
また、本実施の形態の第２の態様によれば、
個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象し、捨象したテキストデータを意味識別可能な分解テキストデータに分解する工程と、
前記分解テキストデータを、個人生成データを生成した個人を識別できるユーザＩＤに関連づけて記憶する工程と、を含む。

図２Ａ（ａ）を参照して、本実施の形態の第２の態様について説明する。まず、個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象する。本実施の形態において、個人生成データは、個人によって生成されたデータであればよい。たとえば、個人がキーボードなどから入力したテキストデータなどがある。このテキストデータには、Ｗｅｂ画面上の入力Ｂｏｘやメールやブログや掲示板やTwitter（登録商標）などに入力されたデータがある。また、個人によって生成されたデータには、音声データや画像データなどもある。音声データや画像データなどの場合には、認識処理を実行することによって、テキストデータに変換することができる。個人によって生成された個人生成データに基づくテキストデータとは、このように、音声データや画像データなどからテキストデータに変換したテキストデータを意味する。

また、所定の内容とは、たとえば、個人情報などがある。ここで、個人情報は、個人を直ちに特定することができる氏名や住所や電話番号などの情報をいう。なお、アカウントやハンドル名などは、他のデータベースなどを参照することで個人を特定できる可能性はあるが、その情報のみでは直ちに個人を特定できないので個人情報には含めない。このような所定の内容を捨象することによって、処理すべきテキストデータに個人情報などの所定の内容が含まれないようにすることができる。

さらに、所定の内容を捨象したテキストデータを意味識別可能な分解テキストデータに分解する。たとえば、意味識別可能な分解テキストデータに分解する処理には、形態素解析などがある。形態素解析をすることによって、名詞や動詞や形容詞などの所定の品詞に分離することができ、意味を識別できる単位データに分離することができる。

さらにまた、分解テキストデータをユーザＩＤに関連づけて記憶する。ここで、ユーザＩＤは、個人生成データを生成した個人を識別できる情報である。なお、個人を識別できればよく、個人情報を特定する情報である必要はない。

このようにすることで、所定の内容を含むデータを捨象するので、個人生成データに含まれる個人情報などの所定の内容を示すデータが嗜好可視化システムや検閲システムから外部に漏れることを防止できる。

この分解テキストデータが「関連詞」に対応する。

＜＜第３の態様＞＞
また、本実施の形態の第３の態様によれば、
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す所定の対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
前記関連テキストデータを前記所定の関連条件に関連づけて記憶する工程と、を含む。

図２Ａ（ｂ）を参照して、本実施の形態の第３の態様について説明する。まず、分解テキストデータのうち関連対象を示す関連テキストデータを抽出する。分解テキストデータは、上述したように、意味を識別できるようにテキストデータを分割した単位データである。

関連対象は、分解テキストデータが示す対象について所定の関連条件を満たす対象である。分解テキストデータが示す所定の対象とは、たとえば、メールなどのテキストデータに含まれている各種の話題や内容などである。具体的には、ある所定の食品や車や観光地などがある。所定の関連条件を満たす関連対象とは、分解テキストデータが示す対象に関連する対象である。関連は、所定の関連条件を満たすものである。たとえば、所定の対象が食品のラーメンである場合に、所定の関連条件を定めることによって、関連対象に、醤油味のラーメンや、塩味のラーメンや、とんこつ味のラーメンなどを含めることができる。

これらの所定の対象や関連条件は、検閲システムの運用者が所望する情報が抽出できるように定めればよい。所定の対象のみを抽出した場合には、関連する対象を抽出することができず、抽出結果が不十分になる可能性がある。関連条件を適宜定めることによって、所定の対象だけでなく、所定の対象とそれに関する関連対象とを含む情報を抽出することができる。検閲システムの運用者が関連条件を定めることによって、所望する情報を狭すぎずかつ広すぎず的確に抽出することができる。

この所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程が、「基本フィルタ」に対応する。１つの関連条件が１つの基本フィルタに対応する。１つの関連条件によって分解テキストデータから関連テキストデータを抽出する工程によって１つのドメインが生成される。１つのドメインには、所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとの双方を含む。所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとによって、関連テキストデータが構成される。

ドメインは、分解テキストデータから抽出した関連テキストデータによって構成される集まり（collection）を意味する。関連条件を異ならしめることで、その関連条件に応じた単一のドメインが生成される。検閲システムの運用者が関連条件を定めることができる。したがって、検閲システムの運用者は、所望する抽出結果が得られるように複数の関連条件を定めて、その各々についてドメインを生成することができる。

図３（ａ）に示すように、上述した関連条件を示すためのドメインが構成される。ドメインは、複数の関連条件を区分して識別するためのものである。したがって、複数の関連条件の各々に対応してドメインが生成される。

図３（ａ）に示した検閲の場の例では、ドメインは、ｕ_１〜ｕ_４の４つのみであり、上述したように関連条件（基本フィルタ）を異ならしめることで、４つのドメイン（ｕ_１〜ｕ_４）が生成される。図３（ａ）では、４つのドメイン（ｕ_１〜ｕ_４）の各々を破線で囲んで示した。後述するように、４つのドメイン（ｕ_１〜ｕ_４）の各々は、５つの部分空間からなる。図３（ａ）に示したドメインは、４つの関連条件（基本フィルタ）を用いて４つのドメイン（ｕ_１〜ｕ_４）が生成された例を示す図である。ドメインの各々には、それぞれに対応する関連条件を満たす関連テキストデータが属する。

さらに、抽出した関連テキストデータを所定の関連条件に関連づけて記憶する。このようにすることで、関連テキストデータだけでなく、それを抽出した所定の関連条件も記憶させることができ、その後の処理の条件を的確に定めることができる。具体的には、ある個人が発話したある１つの単語のみを検閲の対象とするのではなく、発話した１つの単語に関連する単語、たとえば、隠語などを含めることができ、検閲すべき範囲を広げることができる。

＜＜第４の態様＞＞
また、本実施の形態の第４の態様によれば、
個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
前記特徴テキストデータを前記所定の特徴条件に関連づけて記憶する工程と、を含む。

図２Ａ（ｃ）を参照して、本実施の形態の第４の態様について説明する。まず、テキストデータのうち、所定の特徴条件を満たす特徴テキストデータを抽出する。所定の特徴条件は、テキストデータが示す所定の対象の属性に関する条件である。属性は、所定の対象の特性や特色などの各種の特徴である。この各種の特徴は、客観的な特徴だけでなく、所定の対象に対する感情や心理などに基づく主観的に表現される特徴でもよい。

また、属性は、いわゆる嗜好と捉えることができる。所定の対象に関する心理的な特徴や、所定の対象に関する統計的な特徴などがある。心理的な特徴には、所定の対象に関して、攻撃的・感情的な心理的な表現、衝動的な心理的な表現、欲求に関する表現などがある。また、統計的な特徴には、所定の対象に関する回数や時間などの各種の統計量や、これらの各種の統計量を得る手法や手段などがある。

属性（嗜好）は、特徴パラメータとして数値化して処理する。数値化することによって、検閲対象や関連対象の特徴を評価することができる。たとえば、属性は、個人生成データに基づくテキストデータに含まれる形容詞的な表現や副詞的な表現などから、個人生成データを生成した個人の感情や心理などの表現を抽出することができる。

具体的には、所定の対象及び関連対象が食品である場合には、所定の対象及び関連対象に関する属性として、おいしい、まずい、甘い、辛い、熱い、冷たい、また食べたい、二度と食べたくないなどの所定の対象及び関連対象について個人によって述べられた客観的及び主観的な各種の特徴がある。また、所定の対象及び関連対象が車である場合は、燃費が良い、燃費が悪い、エコ、ハイブリッド、大型、小型、是非購入したい、未だ購入しないなどの所定の対象及び関連対象について個人によって述べられた客観的及び主観的な各種の特徴がある。

この所定の特徴条件を満たす特徴テキストデータを抽出する工程が、「適合フィルタ」に対応する。この工程によって部分空間が生成される。この場合には、個人生成データに基づくテキストデータから特徴テキストデータが抽出される。

上述した本実施の形態の第４の態様では、個人によって生成された個人生成データに基づくテキストデータから特徴テキストデータを抽出する場合を示したが、上述した第２の態様で生成した分解テキストデータから特徴テキストデータを抽出したり、第３の態様で抽出した関連テキストデータから特徴テキストデータを抽出したりしてもよい。

＜関連テキストデータから特徴テキストデータを抽出する場合＞
特に、第３の態様で抽出した関連テキストデータから特徴テキストデータを抽出するのが好ましい。関連テキストデータから特徴テキストデータを抽出することで、部分空間が生成される。この場合には、属性は、所定の対象だけでなく、所定の対象と関連対象との双方の特性や特色などの各種の特徴である。この各種の特徴は、客観的な特徴だけでなく、感情や心理などに基づく主観的に表現される特徴でもよい。このようにすることで、所定の対象の属性を示す特徴テキストデータを抽出するだけでなく、所定の対象と関連対象との双方の属性を示す特徴テキストデータを抽出することができる。

図３（ａ）に示した検閲の場の例では、属性（嗜好）は、ｊ＝１〜５の５つのみであるが、上述したように特徴条件（適合フィルタ）を異ならしめることで、嗜好を切り替えることができる。図３（ａ）に示した検閲の場は、５つの特徴条件（適合フィルタ）を用いて５つの嗜好を画定した例を示す図である。

生成したドメインにおいて、関連条件（基本フィルタ）と特徴条件（適合フィルタ）とを定めることで、１つの部分空間を指定することができる。すなわち、関連条件（基本フィルタ）と特徴条件（適合フィルタ）とによって抽出することで部分空間を生成できる。したがって、部分空間には、関連条件（基本フィルタ）と特徴条件（適合フィルタ）を満たす特徴テキストデータが属する。

たとえば、図３（ａ）の例では、所定の関連条件（基本フィルタ）（ｉ＝２に対応する関連条件）を用いることで、ドメイン（ｕ_２）を抽出できる。次に、その抽出されたドメイン（ｕ_２）に対して、嗜好として、所定の特徴条件（適合フィルタ）（ｊ＝３に対応する特徴条件）を用いることで、ドメイン（ｕ_２）のうちの部分空間（ｅ_２３）（（ｉ，ｊ）＝（２，３））を抽出できる。すなわち、図３（ａ）の例では、２０個の部分空間（ｅ_１１〜ｅ_４５）のうち、所定の関連条件（基本フィルタ）と特徴条件（適合フィルタ）とによって、１つの部分空間を抽出できる。部分空間を抽出することによって、抽出された部分空間に属する特徴テキストデータを抽出することができる。たとえば、（ｉ，ｊ）＝（２，３）の部分空間に属する特徴テキストデータを抽出することができる。

図３（ａ）に示すように、４つのドメイン（ｕ_ｉ）（ｉ＝１〜４）の各々は、５つの部分空間からなる。ドメイン（ｕ_１）は、５つの部分空間（ｅ_１１〜ｅ_１５）からなり、ドメイン（ｕ_２）は、５つの部分空間（ｅ_２１〜ｅ_２５）からなり、ドメイン（ｕ_３）は、５つの部分空間（ｅ_３１〜ｅ_３５）からなり、ドメイン（ｕ_４）は、５つの部分空間（ｅ_４１〜ｅ_４５）からなる。

複数の関連条件（基本フィルタ）と複数の特徴条件（適合フィルタ）に基づいて生成された部分空間から検閲の場が構成できる。この検閲の場において、所定の複数の関連条件（基本フィルタ）と、所定の複数の特徴条件（適合フィルタ）とを用いることによって、所望する複数の部分空間を指定することができる。このようにすることで、検閲システムの運用者が、検閲が必要であると所望する部分空間を指定することができる。

また、所定の対象を示す分解テキストデータと、関連対象を示す分解テキストデータとの双方から、所定の特徴条件を満たす特徴テキストデータを抽出できる。すなわち、所定の対象と関連対象とのうちの所定の特徴条件を満たす対象が含まれる分解テキストデータが、特徴テキストデータとして抽出される。

さらに、検閲の場において、分解テキストデータと特徴テキストデータからなる分布特性を抽出することができる。この分布特性は、検閲の場における情報の抑圧されたり変形して放出されたりしている様態を反映したものである。この分布特性に基づき、検閲システムの運用者が、検閲が必要となる一つあるいは複数の部分空間を選択することができる。

さらにまた、特徴テキストデータを所定の特徴条件に関連づけて記憶する。このようにすることで、特徴テキストデータだけでなく、それを抽出した所定の特徴条件も記憶させることができ、その後の処理の条件を的確に定めることができる。

＜＜第５の態様＞＞
また、本実施の形態の第５の態様によれば、
個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程を含む。

図２Ａ（ｄ）を参照して、本実施の形態の第５の態様について説明する。まず、テキストデータのうち、所定の特異性を示す特異条件を満たす特異テキストデータを抽出する。所定の特異性を示す特異条件は、たとえば、所定の対象についての特異性を意味する。特異性は、たとえば、所定の対象に関する各種の量や度合いや変化率などが所定の閾値よりも大きいか又は小さいかによって判断できる。各種の量や度合いや変化率などは、所定の演算処理によって算出できるパラメータであり、所定の対象に関して生じている事象を特徴付けられるものである。

この所定の特異条件を満たす特異テキストデータを抽出する工程が、「構成フィルタ」に対応する。この工程によって候補空間が生成される。この場合には、個人生成データに基づくテキストデータから特異テキストデータを抽出できる。

テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出するので、監視すべき対象の範囲を画定でき、監視結果にノイズが含まれる可能性を低くできる。

＜＜第６の態様＞＞
また、本実施の形態の第６の態様によれば、
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
前記関連テキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
特徴テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程と、を含む。

図２Ｂ（ｅ）を参照して、本実施の形態の第６の態様について説明する。図２Ｂ（ｅ）に示すように、特徴テキストデータから特異テキストデータを抽出するように構成することができる。ここで、特徴テキストデータは、第２の態様による検閲のための嗜好可視化作業によって、個人生成データに基づくテキストデータを分解テキストデータに分解する。次に、第３の態様による検閲のための嗜好可視化作業によって、分解テキストデータから関連テキストデータを抽出する。次に、第４の態様による検閲のための嗜好可視化作業に基づいて、関連テキストデータから特徴テキストデータを抽出する。第６の態様による検閲のための嗜好可視化作業には、このようにして抽出された特徴テキストデータから特異テキストデータを抽出する。

このように、特徴テキストデータから特異テキストデータを抽出することで、部分空間の内部に候補空間を生成することができる。たとえば、図３（ａ）に示した検閲の場の例では、２０個の部分空間に対して、所定の特異性を示す特異条件を満たす候補空間が生成される。特異条件を満たせば候補空間は抽出され、候補空間を構成する部分空間の数は、１つでも複数でもよい。

所定の特異性を示す特異条件は、所定の対象だけでなく、所定の対象と関連対象との双方についての特異性を意味する。たとえば、所定の対象及び関連対象に関する各種の数や量や度合いや変化率などが所定の閾値よりも大きいか又は小さいかによって判断できる。各種の数や量や度合いや変化率などは、所定の演算処理によって算出できるパラメータであり、所定の対象及び関連対象に関して生じている事象を特徴付けられるものである。

特に、複数の部分空間が構成されている場合であって、一部の部分空間における所定の対象及び関連対象が、残りの部分空間における所定の対象及び関連対象に対して、なんらかの特異性を有する場合には、所定の特異条件を満たす特異テキストデータを抽出する工程（構成フィルタ）によって、特異性を有すると判断された一部の部分空間に含まれる所定の対象及び関連対象を示す特異テキストデータを抽出することができる。

たとえば、あるドメインのうちの一部の部分空間において「ラーメン」という語（発話）の出現回数が、残りの部分空間よりも多い場合には、所定の特異条件を満たすとして、「ラーメン」という語を含む関連テキストデータや特徴テキストデータから特異テキストデータを抽出する。また、新製品の商品名を示す語の出現回数の変化率が、残りの部分空間よりも多い場合には、所定の特異条件を満たすとして特異テキストデータを抽出する。このように、所定の対象及び関連対象について複数の部分空間の間で比較することで、複数の部分空間のうち、所定の対象及び関連対象について偏っている部分空間や歪んでいる部分空間を取得でき、所定の対象及び関連対象に関する特異性を判断して、特異テキストデータを抽出することができる。

また、たとえば、後述する所定の一のコミュニティを一のドメインに対応するようにして、複数の部分空間を構成した場合には、複数のコミュニティの間で特異性を有する部分空間を発見して、所定の対象及び関連対象に関する特異性を判断することができる。

テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出するので、所定の関連条件（基本フィルタ）や所定の特異条件（適合フィルタ）に基づいて監視すべき対象の範囲を画定でき、監視結果にノイズが含まれる可能性を低くできる。

また、複数の部分空間の中で、特異テキストデータの有無だけで特異性を判断するのではなく、特異データの出現頻度や分布などから、特異性の重要度を判断する、可視化手法を合わせて具備している。

＜＜第７の態様＞＞
また、本実施の形態の第７の態様によれば、
個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザＩＤに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たす参照テキストデータを抽出する工程と、を含む。

ここで、参照数としてのカウントは、個人を識別するユーザＩＤに相当するデータ、又は発言の番号などの参照に基づくカウントであり、Twitterで言えばRT、メールで言えばRe:に相当する。たとえば、新製品についてのコメントを抽出した場合に、最初に発言した人物の新商品の名称＝捨象したワードについて、最初に発言した人物の発言の重要度が増す訳ではない。有名人の発言などで、「Ａさんがこう言っていた」「何番の発言で、こう言っていた」の様に、注目されている＝参照数が増えている事を抽出する為の、参照数であり、単純に頻度や回数が多い、捨象されたデータではない。

図２Ｂ（ｆ）を参照して、本実施の形態の第７の態様について説明する。まず、個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成する。履歴情報は、テキストデータが示す対象についての履歴を示す情報である。たとえば、対象に関する語がテキストデータに含まれている数や頻度や、対象に関する語を含むテキストデータの数や頻度や出現率などがある。これらによって、個人生成データを生成した個人が、対象についての情報を過去に生成した回数や頻度や出現率を得ることができる。履歴情報を用いることにより、ある一定の時刻や一定の時期を用いた判断だけでなく、経過や変化の状態を含めて判断できる。また、所定の対象に関してなんらかの密度の高低や頻度や回数などの大小や、時間による推移の変化の程度も用いて判断できる。

さらに、この履歴情報について所定の履歴条件を満たす履歴テキストデータをテキストデータから抽出する。

個人生成データに基づくテキストデータが参照された参照数をユーザＩＤに関連づけて生成する。参照数は、個人生成データに基づくテキストデータが他の個人によって参照された数である。すなわち、一の個人が生成した個人生成データに基づくテキストデータを、他の個人が参照した数である。

さらに、参照数について所定の参照条件を満たす参照テキストデータを、個人生成データに基づくテキストデータから抽出する。

履歴情報によって時間とともに変化する状況を含めて検索することができる。また、参照数によりユーザＩＤに対応する個人の影響の大きさを取得できる。

上述した本実施の形態の第７の態様では、個人によって生成された個人生成データに基づくテキストデータから、履歴情報を生成したり、履歴テキストデータを抽出したりする場合を示したが、上述した第２の態様で生成した分解テキストデータから履歴テキストデータを抽出したり、第３の態様で抽出した関連テキストデータから履歴テキストデータを抽出したり、第６の態様で抽出した特徴テキストデータから履歴テキストデータを抽出したりしてもよい。

＜特徴テキストデータから履歴テキストデータを抽出する場合＞
特に、第６の態様で抽出した特徴テキストデータから履歴テキストデータを抽出するのが好ましい。特徴テキストデータから履歴テキストデータを抽出することで、候補空間から監視空間が生成される。すなわち、図３（ａ）に示すように、第３の態様によってドメインが生成され、第４の態様によって部分空間が生成され、第５の態様によって候補空間が生成され、この第７の態様によって監視空間が生成される。

この場合には、所定の対象だけでなく、所定の対象と関連対象との双方に関する語がテキストデータに含まれている数や頻度や、対象と関連対象とに関する語を含むテキストデータの数や頻度や出現率などがある。これらによって、個人生成データを生成した個人が、対象と関連対象についての情報を過去に生成した回数や頻度や出現率を得ることができる。履歴情報を用いることにより、ある一定の時刻や一定の時期を用いた判断だけでなく、経過や変化の状態を含めて判断できる。また、所定の対象に関してなんらかの密度の高低や頻度や回数などの大小や、時間による推移の変化の程度も用いて判断できる。このようにすることで、図３（ｂ）に示すように、時間とともに変化する部分空間を監視空間として抽出して生成することができる。

＜＜第８の態様＞＞
また、本実施の形態の第８の態様によれば、
前記履歴テキストデータに基づいて監視情報を生成する工程をさらに有する。

たとえば、監視は、主として、履歴テキストデータに基づいて、履歴テキストデータの元になった個人生成データを生成した個人を監視したり、履歴テキストデータに基づいて、履歴テキストデータが示す対象を監視したり、個人と対象との双方を監視することを意味する。監視情報は、監視すべき個人や対象と、これらに対する監視の内容や方法などを示す情報である。また、監視すべき個人は、ユーザＩＤを用いることによって定めることができる。

＜＜第９の態様＞＞
また、本実施の形態の第９の態様によれば、
前記監視情報に基づいて検閲制御コマンドを生成する工程をさらに有する。

検閲制御コマンドは、監視すべき個人や対象と、これらに対する監視の内容や方法などに応じて具体的な実行可能なコマンドとして生成される。たとえば、検閲制御コマンドは、監視すべきユーザＩＤに対して所定のメッセージや所定のデータを送信したりするソフトウェア処理によって実行できるものがある。また、検閲制御コマンドは、ネットワークの電気的な接続を遮断するなどのハードウェア処理によって実行できるものもある。また、検閲制御コマンドは、個人の嗜好特性に見合った、新たな情報提供を実行することもある。この様に、個人に対してサービスの提供を抑制したり変形したりするだけでなく、新たなサービスや関連情報の提供を行うことも含まれる。

以上から、以下のような情報処理システムも提供できる。
情報処理システムは、
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータから、前記分解テキストデータが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第１抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
前記第１抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第２抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する。

さらに、情報処理システムは、
前記第２抽出データに基づいて、監視すべき個人と監視の制御をする監視内容とを決定する監視手段とを有することが好ましい。

＜＜＜監視システムを含むネットワーク環境＞＞＞
図４は、本実施の形態の監視システム（検閲システム）が接続されたネットワークの例を示す図である。

＜＜ネットワーク１０＞＞
ネットワーク１０には、各種の端末装置や、監視システム１００が通信可能に接続されている。ネットワーク１０には、ルータやハブなどの各種の通信機器（図示せず）によって構成されるノードが相互に接続されて通信網を形成している。ネットワーク１０は、有線、無線、専用回線、交換回線、ローカル・エリア・ネットワーク（ＬＡＮ）などの種類を問わず、ネットワーク１０に接続されている各種の端末装置や監視システム１００との間で通信することができる。ネットワーク１０を流れる各種の情報は、複数のパケットなどに分割されてノード間を転送される。このようにすることで、発信元の端末装置から送信先の端末装置に至るまで、情報を送信することができる。

＜＜端末装置＞＞
ネットワーク１０に通信可能に接続されている各種の端末装置には、コンピュータ１２や携帯電話１４や固定電話機（ＩＰ電話機を含む）１６や携帯端末装置（図示せず）などがある。携帯端末装置は、無線通信網（図示せず）を介してネットワーク１０に接続されている。また、固定電話機１６は、固定電話網（図示せず）を介してネットワーク１０に接続されている。端末装置は、主として、個人が操作するものであり、個人が入力したり生成したりした各種のデータをネットワーク１０に送り出すことができる。

＜＜サーバ２０＞＞
サーバ２０は、各種の端末装置で入力又は生成された各種のデータを保存する。サーバ２０は、たとえば、ウェブサーバやメールサーバやデータベースサーバなどの各種のサーバがある。サーバ２０は、その種類や機能や数は問わないが、ネットワーク１０を介して、端末装置から送信されたデータを監視システム１００が読み出し可能に記憶するものであればよい。

また、サーバ２０は、端末装置で入力又は生成されたデータを作成した作成者を識別する作成者識別データも記憶する。端末装置で入力又は生成されたデータ自体に作成者識別データが含まれている場合もある。さらに、端末装置でデータが入力又は生成された日時を示す日時データも記憶する。これらの作成者識別データや日時データは、端末装置で入力又は生成されたデータと同様に、監視システム１００が読み出し可能に記憶されるものであればよい。

＜＜監視システム１００（検閲システム）＞＞
監視システム１００は、ネットワーク１０に常時又は所定のタイミングごとに接続される。監視システム１００は、主として、サーバ２０に蓄えられた各種のデータを収集して取得する。なお、サーバ２０からではなく、各種の端末装置から発せられた各種のデータを収集してもよい。いずれにしても、個人が各種の端末装置を操作することによって入力・生成された各種のデータを、ネットワークを介して取得できればよい。以下では、サーバ２０から各種のデータを取得する場合について説明する。

端末装置において入力されたり生成されたりするデータは、主として、個人によって入力されたり生成されたりしたテキストデータである。なお、テキストデータは、バイナリ形式であっても、テキスト形式に変換できるものであればよい。

これらのテキストデータは、ブログとして生成されたデータや、いわゆるTwitterなどのような短いデータなど、個人がネットワーク１０を介して発信するデータで、かつ、監視システム１００がネットワーク１０を介して収集できるデータであればよい。すなわち、個人がネットワーク１０を介して公衆に発信し、監視システム１００が収集できるテキスト形式のデータであればよい。

また、端末装置において入力されたり生成されたりするデータは、テキストデータのほか、音声データや画像データなどもある。このような音声データや画像データなどであっても、音声認識や画像認識などの各種の認識処理によって、テキストデータに変換することができる。監視システム１００は、元々テキストデータであるもののほかに、テキストデータに変換されたものも処理の対象とする。音声データや画像データからテキストデータへの変換は、監視システム１００において実行しても、監視システム１００の外部において実行してもよい。

＜＜＜監視システム１００の構成＞＞＞
監視システム１００は、中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、入出力インターフェイス（Ｉ／Ｏ）及び外部記憶装置を有する。これらが所定のプログラムに従って機能することによって、後述する検閲の場生成装置、監視情報抽出装置、候補空間生成装置などを構成する。

＜＜変換装置＞＞
監視システム１００は、入出力インターフェイス（Ｉ／Ｏ）を有する。監視システム１００は、入出力インターフェイス（Ｉ／Ｏ）を介してネットワーク１０に接続されている。監視システム１００は、ネットワーク１０を介して各種のデータを収集する。変換装置は、収集したデータがテキストデータである場合には、テキストデータを加工しない。一方、変換装置は、収集したデータが音声データや画像データ等である場合には、データの形式に応じた認識処理を選択し、テキストデータに変換する。なお、上述したように、データの変換は、監視システム１００において実行しても、監視システム１００の外部において実行してもよい。

このように、本実施の形態の監視システム１００で扱うテキストデータには、変換装置による処理を経ることなく元々テキストデータであるデータや、変換装置によってテキストデータに変換されたデータがある。以下では、これらのデータを処理用テキストデータと称する。処理用テキストデータには、人物、物品、地名などの対象となる各種の単語が含まれている。

＜＜処理用テキストデータの対応付け＞＞
上述したように、サーバ２０は、作成者識別データ及び日時データも監視システム１００が読み出し可能に記憶する。作成者識別データ及び日時データを処理用テキストデータに対応付ける。このようにすることで、処理用テキストデータを作成した作成者や、処理用テキストデータが作成された日時を用いた検索をすることが可能になる。

＜＜個人データの捨象＞＞
処理用テキストデータは、様々な個人が入力したり生成したりしたものである。このため、処理用テキストデータに各種の個人情報が含まれている可能性がある。本実施の形態の監視システム１００は、個人情報を保護する観点から、処理用テキストデータから個人情報を捨象する処理をする。たとえば、個人を特定する人名やその個人の住所、電話番号、メールアドレスなどを判別し、処理用テキストデータからそれらを捨象し処理用テキストデータを加工する。

＜＜関連語句の生成＞＞
処理用テキストデータは、作成者が表現する各種の対象を示すデータである。たとえば、対象は、有名な人物、食品、車、音楽、旅行など、各種の分野にわたる概念を示す。この対象を示すデータにするために、処理用テキストデータを、所定の意味を有する最小の文字列からなる単位データに分割する処理を実行する。たとえば、処理用テキストデータに対して形態素解析をすることによって形態素という単位データに分解することができる。なお、対象を示すデータに分割する処理は、形態素解析には限られず、処理用テキストデータから所望する文字列のデータに分離する処理ならばよい。

処理用テキストデータには、作成者識別データ及び日時データが対応付けられている。したがって、処理用テキストデータに対応付けられている作成者識別データ及び日時データを、そのまま、対象を示す文字列データに対応付けることができる。

上述したように、対象は、有名な人物、食品、車、音楽、旅行などの概念である。したがって、対象には、同義語や類語や隠語などの関連する関連対象が存在する。検索の漏れを防止するために、一の対象を示すデータに対して、少なくとも関連対象を示すデータを付加する。たとえば、所定のシソーラスを用いることで、同義語や類語や隠語などの関連する関連対象を導出できる。

図５を参照して、より具体的な嗜好可視化システム及び検閲システムを説明する。

＜第１段階＞
第１段階として、捨象プログラムを実行することによって、入力される様々な表現（テキストデータ）を、例えば、ジャンルや嗜好あるいは方言や感情などの複数のカテゴリからなる関連詞（意味識別可能な複数の分解テキストデータを予め定められた関連テキストデータに変換したもの）に加工する。この加工処理は、関連詞の群の中に予め用意された監視したい特異な関連詞が存在するかどうかを分析する処理のための前処理である。この加工処理をすることによって、関連詞の群自体が外部に流出しても個人情報が流出する問題を回避できる。

上述したテキストデータは、入力インターフェイスを介して外部から入力される。テキストデータを入力した「ある個人」として、関連詞について検閲の対象にされる者（以下、検閲者と称する）は、ユーザＩＤによって特定できる。このユーザＩＤと関連詞とは、紐付けられて対で扱われる。

この関連詞には、例えば、（１）明らかに検閲対象であることが分かる用語、（２）関心を持つ者には検閲対象であることがわかる用語、（３）専門家には検閲対象であることがわかる用語などの隠語が含まれている。したがって、従来のように、ある所定の言葉、たとえば、危険な言葉やある用語を発するユーザだけを抽出して特定するような検閲とは異なる。

例えば、ある歌手に興味のある人間であれば、その歌手について相性などを入力する場合もあるし、また、車関係に興味のある人間であれば、「省エネに適した物」や「エコ」という表現を使うことで、ハイブリッドカーや電気自動車のことを指す場合もあり得る。したがって、第１のフィルタリング処理（たとえば、基本フィルタに対応）により、コンピュータが「省エネに適した物」を関連詞に紐付けして置き換える場合には、「ハイブリッド」とか「電気」に置き換えて検閲の場を生成する。この検閲の場の生成は、後の部分空間や監視空間を生成するためのフィルタリングの前処理である。

しかも、前述した（１）〜（３）のように、置き換える関連詞が異なる隠語レベルの異なる複数のフィルタ（基本フィルタ）で構成しているので、これらの基本フィルタの数と同数のドメインが生成されることになる。隠語レベルの異なる基本フィルタを変更することによって、関連詞について検閲の対象にされる者がある業界に精通している人である場合に適したフィルタにしたり、この検閲システムを運用する運用者に適した特有のフィルタ（ドメイン用語）にしたりすることができ、検閲システムの設計の自由度を高くし運用が容易なシステムにできる。

上述した基本フィルタごとにドメインが画定される。

さらに、そのままの生のテキストデータでドメインを生成した場合には、本人の承諾を得ること無く個人情報が外部に流出したときには、法的な問題が生じ得る。このような場合に、隠語レベルの異なる複数のフィルタを用いることによって個人情報を捨象するとともに、上述した関連詞に変換することによって、検閲対象から外れてしまうという問題を回避できる。

このドメインにおいては、後に生成する部分空間や候補空間や監視空間と同様に、その空間内において検閲者と関連詞とが紐付けされている。

＜第２段階＞
次に、第２段階として、第１段階で生成したドメインに対して、第２のフィルタリング処理を実行することによって、第２のフィルタリング処理ごとに応じた部分空間を生成する。第２のフィルタリング処理においても、検閲者と関連詞との紐付けを維持するので、第２のフィルタリング処理によって生成される部分空間においても、検閲者と関連詞とは紐付けされている。検閲者と関連詞とを対で扱いつつ、予め用意された複数種類のジャンルごとに適合する第２のフィルタリング処理を実行する。第２のフィルタリング処理の複数種類のフィルタは、数百とか数千の多数のフィルタであってもよい。

より具体的に、「予め用意された複数種類のジャンルごとに適合する第２のフィルタリング処理」のフィルタは、隠語フィルタや分類フィルタあるいは心理フィルタであってもよい。例えば、ある一つの隠語が用いられているかどうかを、ドメインに対してフィルタリングする。

たとえば、ドメインが、学校の生徒が書き込みを行うＷＥＢの掲示板の内容に基づいて生成された空間である場合に、ある隠語としての関連詞「うざい」について、一つの隠語フィルタで第２のフィルタリング処理をすると、関連詞「うざい」に、この関連詞に対応するユーザＩＤを紐付けた一連の関連テキストデータ群を抽出できる。この場合には、いじめに関連する関連テキストデータ群を抽出している可能性がある。

また、ある心理を表す関連詞で第２のフィルタリング処理をすると、ドメインにおいて、その心理に関連するユーザＩＤとその関連詞が登場する一連の他の関連詞（他の関連テキストデータ）が抽出されて、部分空間が生成される。隠語としては、地方や地域や業界によって様々な表現が存在するので、検閲システムを運用する運用者側が設定できるように設計することが好ましい。

また、外部から入力されたテキストデータの意味識別可能な複数の分解テキストデータに対して、ある一つの関連詞を割り当てるように設定してもよい。このように構成することで、様々な表現をされる同じような意味の分解テキストデータを一つの関連詞で監視できる。この場合には、分解テキストデータに一つの関連詞を割り当てるためのルックアップテーブルなどを参照するように構成すればよい。

さらに、新たに入力された外部情報をリアルタイムで監視する場合には、様々に表現された外部情報が監視すべき監視情報としての関連詞に相当するか否かを、外部情報よりも広がりのある範囲に亘って監視することができる。一方、監視対象となるユーザＩＤが頻繁に使用する関連詞を新たに特異な関連詞として監視対象とすることによって、時間の経過とともに移り変わる変化も容易に監視できる。

第２のフィルタリング処理によって生成された部分空間から履歴情報を生成し、履歴情報データベースに格納する。履歴情報は、部分空間を構成するドメインを指定し、第２のフィルタリング処理に用いる適合フィルタの種類を指定することで、そのドメインを特徴付けて、どのような関連詞が含まれているのかを判断できる情報である。

また、履歴情報データベースの情報を外部の可視化装置に出力するための出力インターフェイスを設けることができる。可視化装置としては、例えば、外部入力がなされた日時や、その外部情報を入力した個人を特定するためのユーザＩＤや、外部情報から変換した関連詞群を文字列で表した表形式でディスプレイに視覚的に表示するものや、あるいは、ディスプレイに棒グラフや曲線グラフとして視覚的に表示するものなどがある。

＜第３段階＞
さらに、第３段階として、第２段階で生成した部分空間に対して、第３のフィルタリング処理を実行する。第３のフィルタリング処理は、部分空間に含まれる関連詞に関して特異な状況である否かを判断するために適したフィルタリング処理である。つまり、ある監視レベルの異なる関連詞ごとに、所定の特異条件を満たしたかどうかの判定処理を実行し、特異条件を満たす関連詞を候補空間として抽出する。抽出した候補空間には、ユーザＩＤごとに関連テキストデータがふくまれる。

「特異条件を満たしたかどうか」とは、隠語レベルで危険レベルに設定される「麻薬」、「殺人」、「いじめ」、「自殺」、「核爆弾」、「超美味しい」が、例えば、一回でも出てきた場合、「気持ちよい」、「核」、「気持ち悪い」、「美味しい」が一連の外部情報に出現する頻度が高い（例えば、１０回）といった予め定められた判定によってフィルタリングされる。

＜第４段階＞
加えて、第４段階として、候補空間の前記入力日時データに基づく履歴情報から、前記候補対象のユーザＩＤを監視対象に設定するかどうかを判定し、この監視対象として設定したユーザＩＤの前記特異な因子が含まれる候補空間、および、同ユーザＩＤの前記入力日時データの異なる他の部分空間の関連テキストデータ群に基づいて監視空間の設定を決定するために、第４のフィルタリング処理プログラムを実行する。そして、前記監視空間に設定された関連テキストデータ及び監視対象となるユーザＩＤを前記監視情報として、後の監視のために取り出し可能な状態でデータベースに格納する。「後の監視のために取り出し可能な状態でデータベースに格納する」とは、監視情報を記憶した監視情報データベースが監視装置と接続されており、外部から外部情報が入力された場合において、が監視対象者のユーザＩＤからの外部情報である場合には、それに関連する検閲コマンドを外部に出力する一方、監視対象者のユーザＩＤでない場合であっても、監視対象者が使用する特異な因子とした関連詞が含まれる部分空間が存在した場合に、それに関連する検閲コマンドを外部に出力するようにしている。

＜＜＜本実施の形態による検閲システムの詳細＞＞＞
＜＜検閲＞＞
本実施の形態による検閲システムにより、基幹システムの利用者から形成される場を検閲の場とするような検閲の概念が生成される。したがって、本実施の形態による検閲システムにおける検閲とは、単なる検閲とは異なり、検閲システムが提供する機能やサービスによって特徴付けられるものである。

本実施の形態による検閲システムは、反社会的な発話や反常識的な発話などをする個人を発見して監視するだけでなく、精神的及び／又は心理的に不安定で悩んでいるような個人や苦痛を感じている個人を発話を介して発見し、保護するために適切な対応をすることに利用してもよい。このように、本実施の形態による検閲システムは、個人の精神状態や心理状態を含めて扱うことができるシステムである。

＜＜発話＞＞
本実施の形態において、発話とは、主として、メール、ＳＭＳ、ブログ、Twitter、Ｗｅｂ画面上の入力Ｂｏｘ、掲示板などに様々な情報を書き込むことをいう。この発話の内容が、本実施の形態による検閲システムにおける検閲の対象である。本実施の形態の検閲システムは、メール、ＳＭＳ、ブログ、Twitter、Ｗｅｂ画面上の入力Ｂｏｘ、掲示板などに書き込まれた情報を取得して、発話の内容を解析する。メール、ＳＭＳ、ブログ、Twitter、Ｗｅｂ画面上の入力Ｂｏｘ、掲示板などに書き込まれた情報は、主として、テキストデータの形式である。

なお、本実施の形態の検閲システムでは、音声データや画像データなどの形式であっても、テキストデータに変換できるデータならば発話として扱い検閲の対象とする。たとえば、認識処理をすることによって、音声データや画像データなどの各種のデータ形式でも、テキストデータに変換できればよい。本実施の形態の検閲システムは、変換したテキストデータを用いて内容を解析し、発話として検閲の対象とする。

この発話が、「個人によって生成された個人生成データ」や「個人によって生成された個人生成データに基づくテキストデータ」に対応する。

＜＜個人情報＞＞
本実施の形態において対象となる個人情報は、その情報のみで個人を特定できる情報である。たとえば、氏名や住所などである。一方、その情報のみでは個人を特定できず、他の情報を参照することで個人を特定できる場合には、その情報を個人情報として扱わない。本実施の形態における検閲システムは、個人が発した発話の内容に含まれている個人情報を捨象して扱う。

＜＜関連詞＞＞
本実施の形態による検閲システムは、関連詞と呼ぶキーワードを基礎として構成されており、関連詞が保持している関連情報に基づいて、検閲システムが提供する機能やサービスが実現されている。したがって、関連詞は、通常の検索処理などに用いられるいわゆるキーワードとは異なる。関連詞は、単なるキーワードと異なり、後述する履歴情報や監視情報などの情報を構成するために、たとえば、ドメインや嗜好などの各種の情報を互いに関連づけることができる。

この関連詞は、発話の内容に含まれた所定の対象を表現するためのデータを含む。発話に含まれる対象とは、個人が発話することによって表現したい具体的で実体的な事物や抽象的な観念などである。

関連詞が、「関連テキストデータ」に対応する。

＜＜uniqueID（ユーザＩＤ）＞＞
uniqueIDは、発話をした個人を特定するための情報である。検閲システムは、uniqueIDを発話の内容と関連づけて関連詞として管理する。uniqueIDは、個人情報そのものではない。uniqueIDは、たとえば、電話番号や免許証番号やＩＰアドレスや掲示板におけるハンドル名などがある。uniqueIDは他の情報を参照することで個人を特定できる。したがって、検閲システムから外部に個人情報が漏れることはないが、検閲システムの運用者は、uniqueIDを用いて個人を特定することができる。

＜＜日時情報＞＞
日時情報は、個人によって発話されたときを示す年月日及び時分秒などの情報である。検閲システムは、uniqueIDと同様に、日時情報を発話の内容と関連づけて関連詞として管理する。なお、年月日及び時分秒の全ての情報を用いる必要はなく、検閲システムの運用者が所望する情報を適宜選択して用いればよい。たとえば、メールが送信された日時や、掲示板に書き込まれた日時から日時情報を取得できる。

＜＜ドメイン＞＞
本実施の形態における検閲システムでは、個人が発話した内容から、検閲システムの運用者が所望する所定の対象を示す関連詞を抽出して検閲の対象とする。個人の発話の内容から所定の対象を示す関連詞を抽出するために、検閲システムでは、まず、基本フィルタを用いる。

さらに、本実施の形態における検閲システムでは、個人が発話した内容に含まれる所定の対象を示す関連詞だけでなく、その所定の対象に関連する関連対象を示す関連詞との双方を検閲の対象にする。上述したように、所定の対象は、個人が発話することによって表現したい具体的で実体的な事物や抽象的な観念などである。また、関連する対象は、所定の対象を示す語の同義語や同意語や類義語や連想語や類意語や関連語などのほか隠語などを用いることによって、所定の対象から拡張された対象である。所定の対象を示す関連詞と、その所定の対象から拡張された関連対象を示す関連詞との双方を用いて検閲の対象にする。

本実施の形態における検閲システムで用いる基本フィルタは、検閲システムの運用者が所望する所定の対象を示す関連詞と、この所定の対象に関連する関連対象を示す関連詞との双方を抽出するためのフィルタである。基本フィルタを用いることによって、所定の対象を示す関連詞と、関連対象を示す関連詞との双方を抽出して、検閲の対象にすることができる。このようにすることで、同義語や隠語なども検閲の対象にすることができ、検閲システムの運用者が所望する検閲を的確に実現することができる。

所定の対象から関連対象に拡張するために、一般的に入手できるいわゆるシソーラスを用いて基本フィルタを構成してもよい。また、検閲システムの運用者が独自に蓄積・作成したシソーラスを用いて基本フィルタを構成してもよい。検閲システムの運用者が基本フィルタを適宜変更できるように検閲システムを構成することで、検閲システムの運用者が所望する範囲まで関連対象を拡張でき、より的確な検閲を実現することができる。

基本フィルタは、少なくとも１つ設定することができる。一の基本フィルタを用いて、所定の対象を示す関連詞と関連対象を示す関連詞との双方を個人が発話した内容から抽出することで、一のドメインを形成することができる。一のドメインは、基本フィルタによって抽出された所定の対象を示す関連詞と関連対象を示す関連詞とを含む集まり（collection）の領域である。基本フィルタを複数設定したときには、その各々に対応したドメインが形成される。このようにすることで、各種の所定の対象を示す関連詞と関連対象を示す関連詞とを抽出でき、検閲をより確実に実行することができる。

複数の基本フィルタとして、複数の類ごとに関連詞を区分するためのフィルタを定めることができる。このようにすることで、個人が発話した内容に含まれている各種の対象を示すキーワード（関連詞）を複数の類ごとに区分して抽出し、抽出した関連詞によってドメインを形成できる。たとえば、所定の類として、所定のジャンルやテーマやカテゴリなどがある。

図３（ａ）は、部分空間及び検閲の場の例を示す図である。図３（ａ）に示す検閲の場においては、１つのセルは、１つの部分空間を意味する。部分空間については、後で説明する。この図３（ａ）に示した検閲の場は、４つの基本フィルタによって形成された４つのドメイン（ｕ_１〜ｕ_４）からなる。図３（ａ）に示すように、複数の基本フィルタ（関連条件）を示すためのドメインを用いる。すなわち、第１の基本フィルタは第１のドメイン（ｉ＝１）に対応し、第２の基本フィルタは第２のドメイン（ｉ＝２）に対応し、第３の基本フィルタは第３のドメイン（ｉ＝３）に対応し、第４の基本フィルタは第４のドメイン（ｉ＝４）に対応する。このように、ドメインは、複数の基本フィルタを区分して識別するためのものである。

第１の基本フィルタによって、ドメイン（ｕ_１）が生成される。第１のドメインは、個人が発話した内容に含まれている所定の対象や関連対象を示す関連詞のうち、第１の基本フィルタの設定条件に応じて抽出されて形成された集まりの領域である。同様に、第２のドメイン（ｕ_２）は、第２の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞によって形成された集まりの領域であり、第３のドメイン（ｕ_３）は、第３の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞とによって形成された集まりの領域であり、第４のドメイン（ｕ_４）は、第４の基本フィルタの設定条件に応じて抽出された所定の対象や関連対象を示す関連詞とによって形成された集まりの領域である。このようにドメインを形成したことにより、ドメインの各々には、所定の対象や関連対象を示す関連詞が少なくとも１つずつ含まれている。

＜＜嗜好＞＞
本実施の形態における検閲システムでは、個人が発話した内容について、その感情を含めて検閲する。一般に、所定の対象について個人が発話するときに、所定の対象に対してよい感情をもって発話して場合と、よくない感情をもって発話している場合とがある。たとえば、ある商品について発話しているときに、その商品に対して、購入したくないとか、絶対に使いたくないなどの不満を感じている場合と、是非購入したいなどの満足している場合とがある。したがって、同じ対象について個人が発話している場合であっても、単にキーワードで検索をしただけでは、検索結果が参考になるものもあれば、参考にならないものもある。このような観点から、所定の対象についての感情を発話の内容から取得し、感情についても検閲の対象にできるようにする。

本実施の形態における検閲システムでは、所定の対象に対する感情を、所定の対象に関する嗜好として扱う。嗜好は、個人が発話した内容から、具体的には、メール、ＳＭＳ、ブログ、Twitter、Ｗｅｂ画面上の入力Ｂｏｘ、掲示板などのテキストデータから、所定の対象を示す語と、形容詞や副詞や動詞などとを抽出し、それらの形容詞や副詞や動詞などを分類して所定の対象に対する嗜好を解析する。その際に、所定の対象に対する感情の程度も解析する。たとえば、非常によい感情を持っている、そこそこよい感情を持っている、あまりよく思っていない、極めてよく思っていないなどの感情の程度も含めて嗜好として扱う。また、その感情を表現している回数なども嗜好として扱う。すなわち、何度も商品をほめているとか、何度も悪口をいっているとか、１回しか発話していないといったことも嗜好として扱う。

嗜好は、感情に基づく表現に限られず、心理に基づく表現も含まれる。すなわち、嗜好は、個人の発話に含まれている所定の対象に対する感情や心理に基づく主観的に表現される特徴である。言い換えれば、嗜好は、個人が所定の対象に対して感じたことや考えたことや思ったりしたことなどである。嗜好は、メール、ＳＭＳ、ブログ、Twitter、Ｗｅｂ画面上の入力Ｂｏｘ、掲示板などのテキストデータから抽出できる主観的な表現であればよい。嗜好は、テキストデータに基づいて特徴パラメータ化されて、演算可能に数値として処理できるようにされている。

本実施の形態における検閲システムでは、個人の発話の内容から所定の対象に対する嗜好を抽出するために適合フィルタを用いる。適合フィルタは、少なくとも１つ設定することができる。一の適合フィルタを用いて、所定の対象に対する嗜好を個人が発話した内容から抽出することができる。一の嗜好は、一の適合フィルタによって抽出された嗜好であって所定の対象に対する嗜好を示す。適合フィルタを複数設定したときには、その各々に対応した嗜好が抽出される。このようにすることで、所定の対象に対する各種の嗜好を抽出でき、所定の対象に対する感情や心理状態を含めて検閲を実現できる。

上述したように、図３（ａ）は部分空間及び検閲の場の例を示す図である。図３（ａ）に示す検閲の場においては、１つのセルは、１つの部分空間を意味する。部分空間については、後で説明する。検閲の場は、たとえば、個人の発話の内容から取得して検閲の対象となるテキストデータの集まり（collection）から構成される空間である。より具体的には、検閲の場は、検閲の対象となる少なくともの一つテキストデータから構成され、複数のテキストデータの集まりがある場合には、それらの集まりから構成される。検閲の場は、たとえば、図３（ａ）に示すように、横軸として嗜好の軸と、縦軸としてドメインの軸とを有する空間（平面）である。さらに、検閲の場は、図３（ｂ）に示すように、嗜好の軸と、ドメインの軸とのほかに、時間の軸を有する空間とすることができる。

上述したように、検閲の場は、検閲の対象となるテキストデータの集まり（collection）から構成される空間である。この集まりは、数学で用いられる集合の概念である必要はなく、テキストデータを集めて形成したものであればよい。また、同一のテキストデータによって、複数の集まりを構成してもよい。たとえば、同一のテキストデータによって、第１の集まりと第２の集まりを構成するようにして検閲の場を構成してもよい。また、たとえば、一の集まりによって、一の部分空間を構成することができる。

この図３（ａ）に示した検閲の場は、５つの適合フィルタの各々に対応する５つの嗜好（ｊ＝１〜５）を有する。図３（ａ）に示すように、複数の適合フィルタ（特徴条件）を示すための嗜好を用いる。すなわち、第１の適合フィルタは第１の嗜好（ｊ＝１）に対応し、第２の適合フィルタは第２の嗜好（ｊ＝２）に対応し、第３の適合フィルタは第３の嗜好（ｊ＝３）に対応し、第４の適合フィルタは第４の嗜好（ｊ＝４）に対応し、第５の適合フィルタは第５の嗜好（ｊ＝５）に対応する。このように、適合フィルタは、複数の嗜好を区分して識別するためのものである。

第１の嗜好に含まれる部分空間は、個人が発話した内容に含まれている所定の対象や関連対象に対する様々な嗜好のうち、第１の適合フィルタの設定条件に応じて抽出されて形成された集まりの領域である。同様に、第２の嗜好（ｊ＝２）に含まれる部分空間は、第２の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第３の嗜好（ｊ＝３）に含まれる部分空間は、第３の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第４の嗜好（ｊ＝４）に含まれる部分空間は、第４の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域であり、第５の嗜好（ｊ＝５）に含まれる部分空間は、第５の適合フィルタの設定条件に応じて抽出された所定の対象や関連対象に対する嗜好によって形成された集まりの領域である。

上述したように、図３（ａ）に示す検閲の場において、１つのセルは１つの部分空間を意味する。後述するように、基本フィルタによってドメインが生成され、適合フィルタによって、ドメインから抽出されて部分空間が生成される。

＜＜基本フィルタ・適合フィルタ・部分空間＞＞
図６は、基本フィルタと適合フィルタと部分空間の概要を示す図である。

＜基本フィルタ＞
基本フィルタは、個人の発話のうち、本実施の形態による検閲システムが検閲の対象とする関連詞を抽出するためのフィルタである。たとえば、個人の発話は、図６に示すように、蓄積された多数の個人データである。個人データは、所定のサーバに蓄積されたデータでも、検閲システムが収集して蓄積したものでもよい。

基本フィルタは、個人が発話した内容に含まれる所定の対象を示す関連詞だけでなく、その所定の対象に関連する関連対象を示す関連詞も抽出することができる。基本フィルタを用いることによって、単なる関連詞だけでなく、関連詞が示す対象から連想できたり関連詞に関連したりする語や、関連詞の隠語や、関連詞の同義語なども検閲の対象にすることができる。

図６に示すように、基本フィルタを構成する関連詞の隠語レベルとして、レベルＡ：明らかに検閲対象であることが一般公衆に理解できる用語、レベルＢ：関心を有する者には検閲対象であることがわかる用語、レベルＣ：関連詞の専門家などには検閲対象であることがわかる用語などのように設定することもできる。また、隠語は隠語レベルを選択して可視化できるようにする。たとえば、レベルＣの隠語が、数多く存在するレベルＡの隠語によって埋もれてしまう場合であっても、可視化して相互に比較できるようにする。

基本フィルタによって、個人の発話のうち、所定の関連詞を抽出することによって、ドメインが生成される。図６に示すように、具体的には、ｉ番目の基本フィルタによって、個人の発話のうち、所定の関連詞を抽出され、抽出された関連詞によって、ｉ番目のドメインｕ_ｉが生成される。このドメインｕ_ｉにおいては、抽出された関連詞は検閲の対象とされる者（以下、検閲者と称する。）と紐付けられる。検閲者は、上述したuniqueIDによって特定される者である。

基本フィルタに対応してドメインｕ_ｉが生成される。図３（ａ）に示すように、基本フィルタを変更して処理することによって、個人の発話から複数のドメインｕ_ｉを生成することができる。

部分空間生成装置における基本フィルタによって、ドメインｕ_ｉが生成される。部分空間生成装置においては、運用者が基本フィルタを設定することができ、運用者に特有の関連詞を個人の発話から抽出でき、個人の発話から漏れなく関連詞を抽出することができる。ドメインは、関連詞（キーワード）によって構成される集まりである。さらに、ドメインは、抽出した関連詞にuniqueIDを紐付け、隠語レベルを調節しながら検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。

関連詞は、関連詞収集装置によって収集してもよい。また、隠語などの同義語は、同義語拡張支援装置によって拡張してもよい。関連詞収集装置や同義語拡張支援装置は、検閲システムの運用者が所望する検閲ができるように、運用者によって管理され作動される。

＜適合フィルタ＞
適合フィルタは、個人の発話の内容から所定の対象に対する嗜好を抽出するためのフィルタである。上述したように、嗜好は、個人の発話に含まれている所定の対象に対する感情や心理に基づく主観的に表現される特徴である。すなわち、嗜好は、個人が所定の対象に対して感じたことや考えたことや思ったりしたことなどである。嗜好は、特徴パラメータ化されて、演算可能に数値として処理できるようにされている。

図６に示すように、適合フィルタは、分類フィルタと、隠語フィルタと、心理フィルタとから構成してもよい。分類フィルタは、関連詞によって示される所定の対象に対する嗜好を分類して抽出するためのフィルタである。隠語フィルタは、所定の対象に対する嗜好を隠語で表現した場合にも抽出できるようにするためのフィルタである。心理フィルタは、所定の対象に対する心理に基づく表現を抽出できるようにするためのフィルタである。

適合フィルタは、分類フィルタと隠語フィルタと心理フィルタとのうちの少なくとも１種類からなる。分類フィルタと、隠語フィルタと、心理フィルタとの各々が、複数種類ある場合には、それらの組合せによって、１つの適合フィルタを構成してもよい。たとえば、分類フィルタと、隠語フィルタと、心理フィルタとの組合せによって、ｊ番目の適合フィルタＣ_ｊが構成される。

＜部分空間＞
上述したように、基本フィルタに応じて個人の発話からドメインｕ_ｉが生成される。ドメインｕ_ｉに対してｊ番目の適合フィルタＣ_ｊを用いて、ｕ_ｉ∩Ｃ_ｊを演算することによって、ドメインｕ_ｉに含まれている関連詞から、適合フィルタＣ_ｊを満たす関連詞を抽出し、抽出した関連詞によって部分空間ｅ_ｉｊが生成される。このように処理することで、部分空間ｅ_ｉｊは、個人の発話に含まれる関連詞のうち、基本フィルタ（ｉ番目のドメイン）と適合フィルタＣ_ｊとの双方によって抽出された関連詞によって構成される集まりとなる。また、部分空間は、ドメインと同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。

部分空間生成装置によって、ドメインｕ_ｉに含まれている関連詞から、適合フィルタＣ_ｊを用いて部分空間ｅ_ｉｊが生成される。部分空間生成装置においては、運用者が適用フィルタを設定することができ、運用者に特有の嗜好を個人の発話から抽出でき、個人の発話から漏れなく嗜好を抽出することができる。

基本フィルタが、「所定の関連条件」に対応する。適合フィルタが、「所定の特徴条件」に対応する。部分空間に含まれている関連詞が、「第１抽出データ」や「特徴テキストデータ」に対応する。

＜＜構成フィルタ・候補空間＞＞
図７は、構成フィルタと候補空間生成装置の概要を示す図である。

構成フィルタは、部分空間ｅ_ｉｊに含まれている関連詞のうち、特異性を示す関連詞を抽出するためのフィルタである。たとえば、構成フィルタは、所定の対象について発話された回数が非常に多いとか、所定の対象についてある時期を境に急に発話が始まったとかの特異条件を満たす関連詞を抽出するためのフィルタである。

適合フィルタによって抽出された部分空間のうち、特異条件を満たす関連詞を含む部分空間を抽出し、抽出した部分空間から候補空間を生成する。

特異条件は、たとえば、図７に示すように、検閲者と関連詞の組ｘに対して定義される種々の関連詞特性に基づく条件で表すことができる。

関連詞特性としては、たとえば、ｉ番目の関連詞の属性ｉや、ｉ番目の関連詞の隠語レベルＬｉや、ｉ番目の関連詞の検閲の場頻度Ｎｉや、ｉ番目の関連詞の検閲の場出現率Ｎｉ／Ｎｄ（Ｎｄ：全関連詞数）や、ｉ番目の関連詞の部分空間頻度ｎｉや、ｉ番目の関連詞の部分空間出現率ｎｉ／ｎｓ（ｎｓ：全関連詞数）や、部分空間の重みα（＝ｎｓ／Ｎｄ）や、ｉ番目の関連詞の特異指標Δ（＝（ｎｉ／Ｎｉ）／α）などがある。

さらに、Ｓｉ、Ｓｉ／Ｓｄ、ｓｉ、ｓｉ／ｓｓ、β＝ｓｓ／Ｓｄ、Δｓ＝（ｓｉ／Ｓｉ）／βなどを特異条件として用いることもできる。これらは、部分空間におけるカバー率を示すパラメータであり、Ｓｄは、検閲の場における検閲文数であり、ｓｓは、部分空間における検閲文数である。

このような各種の関連詞特性を用いることによって、特異性が現れてくる関連詞を発見しやすくできる。このような特異性が現れた関連詞を含む部分空間を抽出して候補空間を生成する。たとえば、部分空間における特異性は、部分空間において関連詞が存在する偏りや歪などの特性がある。

図７に示すように、関連詞の特異条件ｃ_ｉｊに対応する構成フィルタを用いて、σ_ｉｊ＝｛ｘ｜ｘ∈ｅ_ｉｊ，Δ（ｘ）≧ｃ_ｉｊ｝を演算することによって、適合フィルタによって生成された部分空間ｅ_ｉｊに含まれる関連詞から、特異条件ｃ_ｉｊを満たす関連詞を抽出し、抽出した関連詞によって候補空間σ_ｉｊが生成される。このように処理することで、候補空間σ_ｉｊは、個人の発話に含まれる関連詞のうち、基本フィルタ（ｉ番目のドメイン）と適合フィルタＣ_ｊと構成フィルタの３種類のフィルタによって抽出された関連詞によって構成される集まりとなる。また、候補空間は、部分空間と同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。検閲者は、上述したuniqueIDによって特定される者である。

候補空間生成装置によって、部分空間ｅ_ｉｊに含まれる関連詞から、特異条件ｃ_ｉｊを満たす関連詞を構成フィルタを用いて候補空間σ_ｉｊが生成される。候補空間生成装置においては、運用側の指定したドメインや嗜好ごとに、関連詞の特異特性を定義することができるので、運用側のサービスに直結する検閲者と関連詞とを抽出することができる。この構成フィルタを用いて抽出された関連詞を特異関連詞と称する。また、構成フィルタを用いて抽出された関連詞に紐付けられた検閲者を候補者（監視すべき候補とされた者）と称する。

適合フィルタが、「所定の特異性を示す特異条件」に対応する。候補空間に含まれる関連詞が、「特異な関連テキストーデータ」に対応する。

＜＜平衡フィルタ・監視空間＞＞
図８は、平衡フィルタと監視空間生成装置の概要を示す図である。

平衡フィルタは、候補空間に含まれる関連詞について、所定の履歴条件を満たす関連詞を抽出して監視空間を生成するためのフィルタである。履歴条件は、関連詞に関する条件である。たとえば、履歴条件は、ある個人がいつも発話する関連詞であるとか、ある個人がはじめて発話した関連詞であるとか、現在多くの個人が発話して話題になっている関連詞であるなどの関連詞についての履歴から定めることができる条件である。関連詞について、各種の統計処理を行うことで履歴条件を満たすか否かを判断することができる。

たとえば、関連詞に関する履歴条件hist_ｉｊに対応する平衡フィルタを用いて、ｆ_ｉｊ＝｛（ｍ，ｗ，ｈ）｜ｘ＝（ｍ，ｗ）∈σ_ｉｊ，ｈ∈hist_ｉｊ｝を演算することによって、構成フィルタによって生成された候補空間σ_ｉｊに含まれる関連詞から、履歴条件hist_ｉｊを満たす関連詞を抽出し、抽出した関連詞によって監視空間ｆ_ｉｊが生成される。ここで、ｈ＝ｈ（frequency（ｘ），reference（ｍ））である。このように処理することで、監視空間ｆ_ｉｊは、個人の発話に含まれる関連詞のうち、基本フィルタ（ｉ番目のドメイン）と適合フィルタＣ_ｊと構成フィルタと平衡フィルタとの４種類のフィルタによって抽出された関連詞によって構成される集まりとなる。さらに、監視空間は、部分空間や候補空間と同様に、抽出された関連詞にuniqueIDを紐付け、検閲の対象とすべき関連詞と検閲者との対の集まりを含む空間である。検閲者は、上述したuniqueIDによって特定される者である。

監視空間生成装置によって、候補空間σ_ｉｊに含まれる関連詞から、履歴条件hist_ｉｊを満たす関連詞を平衡フィルタを用いて監視空間ｆ_ｉｊが生成される。監視空間生成装置においては、運用側の指定したドメインや嗜好ごとに、履歴条件を定義することができるので、運用側のサービスに直結する監視者や特異関連詞を抽出することができる。

図８や図９に示すように、候補空間σ_ｉｊについて、ｘ∈σ_ｉｊの履歴可視化装置を構成することができ、監視空間ｆ_ｉｊについて、ｙ∈ｆ_ｉｊの履歴可視化装置を構成することができる。このような履歴可視化装置を構成することによって、日間変動を示すための日間変動可視化装置や、日内の変動を示すための日内変動可視化装置を構成することができ、各種のデータを表示することができる。

たとえば、このような履歴特性を得ることによって、図３（ｂ）に示すように、時刻とともに特異性が変化する部分空間を検出することができる。したがって、現在の発話や、過去のある特定の時刻における発話のみならず、発話の内容が徐々に変化したり、突然変化したりするような部分空間を検出でき、このような個人も監視の対象にすることができる。さらに、時刻の変化から将来の予測も立てることができ、将来にわたって監視すべきであるか否かも判断することができる。

平衡フィルタが、「所定の履歴条件」に対応する。候補空間に含まれる関連詞が、「履歴テキストデータ」に対応する。

＜＜＜オンライン利用可能な検閲システム＞＞＞
図１０は、オンライン利用可能な嗜好可視化システム（検閲システム）の概要を示すブロック図である。

図１０に示す関連詞抽出装置は、上述した部分空間生成装置からなる（図１１参照）。この部分空間生成装置は、上述したものと同様の処理を実行する。すなわち、基本フィルタによって、個人の発話からドメインｕ_ｉが生成され、適合フィルタによって、ドメインｕ_ｉから部分空間ｅ_ｉｊが生成される。

また、関連詞抽出装置は、監視装置を有する（図１２参照）。監視装置は、部分空間ｅ_ｉｊに含まれる関連詞とuniqueID（検閲者）とに基づいて、監視情報を参照し、監視すべき検閲者（監視者）と、特異性が見出された関連詞（特異関連詞）と、特異関連詞に関する履歴特性とを監視情報から取得する。監視装置は、取得した監視者と特異関連詞と履歴特性とを検閲制御装置に出力する。なお、複数の個人に対して新製品の広告などの情報を提供するような場合には、検閲者が監視者でない場合もある。このような場合には、監視装置は、検閲者と関連詞とを検閲制御装置に出力する。

検閲制御装置は、特異関連詞や履歴特性などの監視情報に基づいて、検閲制御コマンドを取得し、出力変換装置に出力する（図１３参照）。検閲制御コマンドとして、たとえば、無視（正常保証）、警告（セキュリティ）、統計出力（顧客サービス）、リコメンド（広告）、教育（リスク管理）、励まし（介護）、エンタメ情報（豊心）などがある。検閲制御コマンドは、特異関連詞と履歴特性とに応じて選択できるようにテーブルに記憶されている。

検閲制御装置は、これらの検閲制御コマンドの内容に応じて出力変換装置に出力情報を送信する。出力変換装置から出力情報が出力されたときには、その内容や出力した日時や出力したuniqueIDなどを記憶するための出力ログを生成し、出力記憶装置に記憶させる。また、出力変換装置は、出力記憶装置に記憶させた出力ログを参照し、出力情報を出力するか否かを判断する。たとえば、既にあるuniqueIDが示す個人に既に出力情報を出力している場合には、出力情報の出力を中止する。

図１１は、オンライン利用可能な検閲システムにおける基本フィルタと適合フィルタであり、これは、上述したものと同じ処理を実行する。すなわち、基本フィルタによって、個人の発話からドメインｕ_ｉが生成され、適合フィルタによって、ドメインｕ_ｉから部分空間ｅ_ｉｊが生成される。

＜＜検閲制御コマンド＞＞
検閲制御コマンドは、検閲をした結果、検閲の対象となった個人に警告の情報を発したり、励ましの情報を発したりするためのコマンドである。また、検閲制御コマンドは、個人が使用している装置やシステムに対して制御するためのコマンドである。このように検閲制御コマンドを発することで、反社会的な発話や反常識的な発話をしている個人が使用している装置やシステムの通信回線を切断することができる。このような検閲制御コマンドは、検閲の結果に応じて検閲システムの運用者が所望する内容を定められる。

図１４に示すのは、インターネットなどのネットワークを利用して、契約や決済などを行う電子商取引（ＥＣ＝エレクトロニックコマース）を実行可能な基幹システムに対して本発明を適用した実施例を示している。

電子商取引は、一般的に大きく３つに分けられ、企業同士の取引を「Ｂ
ｔｏＢ」（Business to Business）、企業と消費者の間の取引を「ＢｔｏＣ」（Business to Consumer）、消費者同士の取引を「ＣｔｏＣ」（Consumer
to Consumer）と呼ばれている。

本実施例で本発明を適用するＢｔｏＢの一般的なＥＣサイトは、基幹システムを中心としてインターネットなどのネットワークを通じて、複数の個人の端末と接続されており、また、それぞれの端末を通じてアクセスする個人の個人情報データベースと接続されている。そして、複数の端末群から様々な入力情報を得て、前記基幹システムの内部では、アニメが好き、又はアニメに興味のあるアニメコミュニティや宗教的要素の入力情報が多い宗教コミュニティ、或いは、食について発話が多かったりするグルメコミュニティなど複数のジャンルのコミュニティが潜在的に存在しているが、これらコミュニティは群を可視化することはなされていない（群として抽出することができない、抽出する仕組みが存在しない）のが一般的であった。

さらに、このようなＥＣサイトの一つとして、本実施例ではグルメ検索サイト（図１４の「ぐるめナビ」）を運営する基幹システムと連携させた。本発明とＥＣサイトとを連携させることによって、当該ＥＣサイトとしてのグルメ検索サイトにおいて、ある個人が端末を通じて前記基幹システムにアクセスし、その基幹システムからダウンロードされた検索画面に入力した入力情報に応じて、本発明における嗜好可視化システム及び検閲システム（以下、情報処理システムと言う）はインタラクティブな情報提供や通信切断などのアクション的な処理をも前記端末側にて実行することができる。

例えば、個人の前記端末を通じて、「集会カレーってある？でも、美味しいパスタやラーメンが食べたい」と文字入力による入力情報として基幹サーバに送信されたとする。この入力情報が情報処理システムの入力インターフェイスを通じて入力されると、入力変換装置によって、当該情報処理システムで扱われる一のデータ形式（この実施例の場合にはテキスト情報）に変換される。入力情報としてはキーボードやタッチパネルなどを用いて文字入力をキー入力で行う方式に限らず、本発明の入力情報は後述する音声認識による入力形態も採用することができる。

ここで、本実施例の上記情報処理システムとは、嗜好可視化システムと検閲システムに加えて、履歴情報データベース（履歴情報ＤＢ）、監視情報データベース（監視情報ＤＢ）、各種フィルタを編集するフィルタ編集制御部、各種の検閲制御コマンドを編集するコマンド編集制御装置とから構成されている。

また、前記検閲システムには、前述した入力変換装置および外部に検閲制御コマンドを適正な出力形態で出力する出力変換装置と、前記コマンド編集制御装置によって編集された各種コマンドを記憶した検閲制御コマンドデータベース（検閲制御コマンドＤＢ）と、前記嗜好可視化システムから出力された監視情報に応じて前記検閲制御コマンドデータベースを参照し、前記出力変換装置を介して前記基幹システムに出力する検閲制御装置と、前記出力変換装置から出力された各種の検閲制御コマンドの出力ログを記憶する出力ログ記憶装置とを備えている。

さらに、嗜好可視化システムには、関連詞抽出装置と監視情報抽出装置、そして、前記フィルタ編集制御部の入力によって各種フィルタを編集するフィルタ編集装置を含んでいる。各装置の機能は前述した実施形態で説明した機能を備えている。また、同嗜好可視化システムには、前記履歴情報データベースを参照して履歴可視化を行う部分と、前記関連詞抽出装置と監視情報抽出装置からの情報出力に応じて、監視情報データベースを参照し、前記検閲制御装置に監視情報を出力する監視装置も備えられている。

このような上記情報処理システムによれば、例えば、「集会カレーってある？でも、美味しいパスタやラーメンが食べたい」との入力情報が入力された場合、その入力情報のおのおのから次のような内部状態での処理データが生成される（図１４参照）。

すなわち、関連詞としての「集会」の入力情報に対して、一のドメインが警報を発すべきＮＧ語であること、「集会」という関連詞が、この個人のＩＤが行った初めての発話である場合には、履歴特定としては新参客としての扱いとし、検閲制御するためのコマンドとして警報という処理データが生成される。

また、パスタという関連詞の入力情報に対しては、ドメインが麺類、この個人が何度も発話していることや発話の内容から嗜好が「好き」、そして、履歴情報を参照して常連客としての履歴特性とし、これらの結果からコマンドがパスタ、オススメとなる。

さらに、ラーメンという関連詞の入力情報に対しては、ドメインが麺類、この個人が何度もラーメンを発話していることや発話の内容から嗜好が「好き」、極めて何度も発話しているので常連客としての履歴特性となる。

そして、前述した内部状態としての上記処理データは、次のようにして生成される。前記基幹システムから本情報処理システムへ入力情報が得られると、その入力情報を処理可能なテキストなどのデータ形式に変更／統一するための処理を行い、このデータに対して、前記関連詞抽出装置の検閲空間生成装置と部分空間生成装置が前記履歴情報データベースを参照しつつ、前述した基本フィルタと適合フィルタを用いて処理を行うことによって、まずは、前述した検閲の場を生成する。

次に、前記監視情報抽出装置の候補空間生成装置と監視空間生成装置とは、監視情報データベースを参照しつつ、前述したような構成フィルタや平衡フィルタを用いて処理することによって監視装置を介して監視情報を検閲システムに出力し、この出力情報に応じたコマンドを検閲制御装置が検閲制御コマンドデータベースから抽出して、前記出力変換装置を介して前記端末に対して結果を提供するために、基幹システムに対してコマンドを送出する。

「前記端末に対して結果を提供する」とは、様々なコンシェルジュ的な情報提供の他、前記ＮＧ語のドメインを生成した場合に、ある定められた閾値を超えてＮＧ語が発話された場合に基幹システムとそのＮＧ語を発話した個人の端末との通信回線を強制的に切断することなどのアクションも含まれる。つまり、顧客の嗜好に合わせた個別サービスの提供や、入力内容のリスク状況に合わせた出力制御を、基幹システムに出力する検閲制御コマンドによって実行させる。前述したグルメ検索サイトであれば、検閲制御コマンドに従い、個人（顧客）に対して、グルメ検索を制御し、結果を提供する。

以上が実施例１であるが、本発明の情報処理システムは、基幹システムを介して得られた複数の個人の端末からの複数種類の入力情報に対して、複数種類のフィルタ処理を実行して検閲の場を生成する検閲の場生成機能と、この検閲の場生成機能によって生成された検閲の場に対して、新たに前記基幹システムから入力される入力情報を可視化する可視化機能を実行し、この実行の結果で予め用意された検閲制御コマンドの一つを前記基幹システムに対して、入力情報が得られた端末にて検閲制御コマンドを実行するために出力する監視機能を有することを特徴としている。

図１５に示すのは、実施例１では本発明をＥＣサイトに適用した例を示したが、本実施例２では、顧客サポートをする人工知能サービスを提供する基幹システムと本発明とを連携させた例を示す。本実施例２における情報処理システムの基本構成は、実施例１で説明したものと同様であり、実施例１と異なるのは、連携する基幹システムが異なることと、連携する基幹システムが異なることから入力される入力情報が異なるので、各フィルタも異なり、結果として基幹システムへ出力する検閲制御のコマンドが異なることになる。

より具体的には、この実施例２では、顧客サポートをする人工知能サービスを提供する基幹システムであるので、前記基幹システムに入力される入力情報は、例えば、「Ｃａｉｗａ（商品名）の質問ですが、導入方法を教えてください」が考えられる。この場合、検閲制御コマンドを出力するためにデータ処理が行われた結果の内部の状態は、図１５に示すように、「Ｃａｉｗａ」の関連詞に対して、「Ｃａｉｗａ」が商品名であることからドメインが「商品」、この個人ＩＤと商品というドメインと履歴情報から「重要客」とされ、入力情報内の「質問」という発話から嗜好が「質問」、その結果で基幹システムに出力される検閲制御コマンドは、重要客、商品、質問として記憶されている。また、「導入」という関連詞に対しては、ドメインが「ビジネス」、嗜好が「教えてください」との発話から「質問」、履歴特性が履歴情報を参照して「新参客」として取り扱われ、検閲制御コマンドは、新参者、ビジネス、質問という結果で基幹システムに出力コマンドが出力される。

図１６に示すのは、実施例１では本発明をＥＣサイトの基幹システムに適用した例、実施例２では人工知能における顧客サポートを担う基幹システムに適用した例を示したが、本実施例３では、ロボットの音声制御サービスを担う基幹システムに本発明を適用した例を示している。本実施例における情報処理システムの基本構成は、実施例１と２とで説明したものと同様であり、実施例１及び２と異なるのは、連携する基幹システムが異なることと、連携する基幹システムが異なることから入力される入力情報が異なるので、各フィルタも異なり、結果として基幹システムへ出力する検閲制御のコマンドが異なることになる。また、前記実施例１と２における端末からの入力形態が、主にキーボードなどの入力形態であったものを本実施例３では音声入力によって行わせしめる点、及び音声の特徴量をテキストデータに置き換えて活用している点で異なっている。

そして、音声入力であるので、入力される音声には音量の強弱などの特徴量も影響するように、前述したフィルタが用意されており、音声の大きさによって感情に応じたドメインが生成されることになる。

すなわち、基幹システムは端末側のモニタに対して発話を促す案内画面「どうぞお話ください」を表示した後に、例えば、端末に接続されたマイクに「馬鹿！」と所定の閾値以上の音量の大声で音声入力がなされたとする。勿論、前記案内画面はｗｅｂ画面にかえてロボットを通じて音声で双方向で会話する方式のものであっても良い。

この場合における音声入力は、ある閾値を超えた音量であったことから「大声」という関連詞となり、ドメインが「音量」、嗜好が「怒り」、過去の履歴を参照して「問題客」という履歴属性、これらの結果、検閲制御コマンドが問題客、大声、怒りとなる。また、文長というフィルタによって、音声入力が「馬鹿」と短いので関連詞が「短文」、ドメインが「文長」、履歴特性が過去の履歴から「一般客」、この結果で得られる検閲制御コマンドが一般客、短文、怒りとなる。

このように、音声入力された音声をテキスト認識して発話された意味を実施例１や２と同様にフィルタによって処理するだけでなく、音声入力の場合には、その音量や文長などから感情的な分析を実行することができる。つまり、基幹システムへ検閲制御コマンドとしては、個人が怒っている場合には、低姿勢で回答するような検閲制御コマンドを出力したり、何度も同じような対応をしている問題客の場合には、怒りへの対応とは別に問題客として対応したりするための検閲制御コマンドを出力することができる。したがって、検閲制御コメントに従って対応することによって、誰でもより容易に問題解決を行うことができるようになる。

＜＜他の形態＞＞

さらに、本発明によれば、基幹システムの利用者が形成する検閲の場において不作為のままで放置されることが多かった個別の嗜好情報に着目し、その表現内容を検閲の場における特性として整理する手法を確立することにより、基幹システムの個別サービスに結び付けることを可能とする検閲システムあるいは検閲機能を提供もできる。

また、本発明によれば、利用者からの質問に答える人工知能システムにおいては、人工知能システムと上記の検閲システムあるいは検閲機能とを結び付けることにより、検閲の場に存在する嗜好情報を反映して質問に答える人工知能システムを提供もできる。

本発明の他の形態による情報処理システムは、
基幹システムに参加する多数の個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し、抽出した第１抽出データの集合を検閲の場として生成する検閲の場生成手段と、
前記第１抽出データの集合から、前記対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第２抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有することができる。

さらに、上述した「個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特徴条件とを満たすデータを抽出し」においては、上述した本発明の実施の形態において説明したように、意味識別可能なデータとしてテキストデータを基軸のデータ形式として採用している。しかしながら、将来、テキストデータに変わる意味識別が可能な他のデータ形式が出現した場合にはそれらのデータ形式も本発明に適用することができる。

本発明は、このように、テキストデータに限定されないが、テキストデータを採用した場合には、以下の通りである。すなわち、本発明の他の形態による情報処理システムは、
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータから前記分解テキストデータが示す対象についてコミュニティ毎に特徴付けられる所定の関連条件と前記対象についてコミュニティ毎に特徴付けられる所定の特微条件とを満たすデータを抽出し、抽出した第１抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
前記第１抽出データの集まりから、前記対象に関してコミュニティ毎に特徴付けられる所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第２抽出データから前記所定の特異性を検出して可視化する可視化手段と、
前記第２抽出データに基づいて、監視すべき個人と監視の制御をする監視内容とを決定する監視手段とを有するものにできる。

１０ネットワーク
２０サーバ
１００監視システム、検閲システム、嗜好可視化システム

Claims

個人によって生成された個人生成データを意味識別可能な複数の分解データに分解し、前記分解データのそれぞれが示す対象について所定の関連条件と前記対象について所定の特徴条件とを満たすデータを抽出し、抽出した第１抽出データの集まりを検閲の場として生成する検閲の場生成手段と、
前記第１抽出データの集まりから、前記対象に関して所定の特異性を示す特異条件を満たすデータを抽出し、抽出した第２抽出データから前記所定の特異性を検出して可視化する可視化手段と、を有する情報処理システム。
複数の文字列からなるテキストデータを含む一つの外部情報を、入力インターフェイスを通じて受信し、その内容の特異な情報を抽出するためのプログラムを実行するコンピュータを備えたシステムであって、このコンピュータは前記プログラムを実行して以下の処理を実行する。
入力されたテキストデータを捨象して予め用意された複数の関連テキストデータに変換する処理と、
その一つの外部情報に関連テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす場合には、その関連データを特異な関連テキストデータとして判定する処理と、
特異な関連テキストデータとして判定した関連テキストデータを、その外部情報に含まれる個人を識別するためのユーザＩＤ及び特異条件に関わる条件と関連して記憶する処理とを含む。
個人によって生成された個人生成データに基づくテキストデータから所定の内容を含むデータを捨象し、捨象したテキストデータを意味識別可能な分解テキストデータに分解する工程と、
前記分解テキストデータを、個人生成データを生成した個人を識別できるユーザＩＤに関連づけて記憶する工程と、を含む嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
前記関連テキストデータを前記所定の関連条件に関連づけて記憶する工程と、を含む嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
前記特徴テキストデータを前記所定の特徴条件に関連づけて記憶する工程と、を含む嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータのうち、テキストデータが示す対象に関して所定の特異性を示す特異条件を満たすテキストデータを抽出する工程を含む嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータを意味識別可能な分解テキストデータに分解し、前記分解テキストデータのうち、前記分解テキストデータが示す対象について所定の関連条件を満たす関連対象を示す関連テキストデータを抽出する工程と、
前記関連テキストデータのうち、テキストデータが示す対象の属性について所定の特徴条件を満たす特徴テキストデータを抽出する工程と、
特徴テキストデータが示す対象に関して所定の特異性を示す特異条件を満たす特異テキストデータを抽出する工程と、を含む嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザＩＤに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たすテキストデータを抽出する工程と、を含む嗜好可視化方法。
前記履歴テキストデータに基づいて監視情報を生成する工程を、さらに有することを特徴とする請求項８に記載の嗜好可視化方法。
個人によって生成された個人生成データに基づくテキストデータが示す対象の履歴に関する履歴情報を生成し、前記個人生成データに基づくテキストデータのうち、前記履歴情報について所定の履歴条件を満たす履歴テキストデータを抽出する工程と、
前記個人生成データに基づくテキストデータが参照された参照数を、個人生成データを生成した個人を識別できるユーザＩＤに関連づけて生成し、前記個人生成データに基づくテキストデータのうち、前記参照数について所定の参照条件を満たすテキストデータを抽出する工程と、
前記履歴テキストデータに基づいて監視情報を生成する工程と、
前記監視情報に基づいて検閲制御コマンドを生成する工程と、を含む検閲方法。