CN103635898B - 喜好可视化系统和审查系统 - Google Patents

喜好可视化系统和审查系统 Download PDF

Info

Publication number
CN103635898B
CN103635898B CN201280016719.3A CN201280016719A CN103635898B CN 103635898 B CN103635898 B CN 103635898B CN 201280016719 A CN201280016719 A CN 201280016719A CN 103635898 B CN103635898 B CN 103635898B
Authority
CN
China
Prior art keywords
data
text data
individual
mentioned
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280016719.3A
Other languages
English (en)
Other versions
CN103635898A (zh
Inventor
富士本淳
野中诚之
胜仓裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universal Entertainment Corp
Original Assignee
Universal Entertainment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universal Entertainment Corp filed Critical Universal Entertainment Corp
Publication of CN103635898A publication Critical patent/CN103635898A/zh
Application granted granted Critical
Publication of CN103635898B publication Critical patent/CN103635898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种对于如喜好信息那样在审查场中被抑制或变形后放出的信息也能够适当地对应的监视系统、或为了实现该监视系统所必需的该信息的可视化系统、该信息的可视化功能。本申请的信息处理系统,从对基于由参加并构成主干系统的许多个人生成的个人生成数据的文本数据进行了能够识别含义的分解所得的分解文本数据,提取出针对对象满足对每个团体附加特征的预定的关联条件和针对对象的属性对每个团体附加特征的预定的特征条件的数据,提取出针对对象满足表示对每个团体附加特征的预定的特异性的特异条件的数据,检测出预定的特异性并进行可视化,决定应该监视的个人和进行监视的控制的监视内容。

Description

喜好可视化系统和审查系统
技术领域
本发明涉及一种对经由网络取得的文本进行监视的系统。
背景技术
以前,存在阻止经由网络提供的信息中判别为不适当的信息的提供的方法、装置(例如参照专利文献1)。该方法、装置用于使儿童等无法视觉辨认经由网络提供的信息中的被认为有害的信息。其从经由网络提供的信息中提取出单词,从预先求出并存储的单词列表中读出与所提取出的各个单词对应的权重,判断是否进行阻止。
现有技术文献
专利文献
专利文献1:特开2001-28006号公报
发明内容
发明要解决的课题
在现有的审查系统中,虽然对明确地出现被认为不适当的单词的信息是有效的,但对在审查场中被抑制或变形后放出的信息完全没有办法。在此,所谓审查场,例如是指由使用者提供的成为审查对象的文本的集合构成的空间。
因此,在以前的提供信息服务的主干系统中,关于针对该主干系统的使用者所参加的每个团体(community)而形成的审查场中被抑制或变形后放出的个别的喜好信息,并没有确立对其进行处理的方法,很多情况下甚至不作为地搁置。
例如,在上述主干系统是对来自使用者的咨询进行回答的人工智能系统的情况下,存在于审查场中的喜好信息被不作为地搁置,缺乏审查场中的审查功能而只是回答来自使用者的咨询。
本发明就是鉴于上述情况而提出的,其目的在于:提供一种对于如喜好信息那样在审查场中被抑制或变形后放出的信息也能够适当地对应的信息处理系统、或为了实现该信息处理系统所需的该信息的可视化系统、该信息的可视化功能。
用于解决课题的手段
本实施方式的信息处理系统具备:
审查场生成单元,其将由个人生成的个人生成数据分解为能够识别含义的多个分解数据,提取出针对上述分解数据各自表示的对象满足预定的关联条件并且针对上述对象满足预定的特征条件的数据,将提取出的第一提取数据的集合生成为审查场;
可视化单元,其从上述第一提取数据的集合中,提取出关于上述对象满足表示预定的特异性的特异条件的数据,从提取出的第二提取数据中检测上述预定的特异性并进行可视化。
发明效果
对于如喜好信息那样在审查场中被抑制或变形后放出的信息也能够适当地对应。
附图说明
图1是表示使用了本实施方式的可视化系统和审查系统的主干系统的概要的框图(a)、表示可视化系统的概要的框图(b)。
图2A是表示本实施方式的喜好可视化系统和审查系统中的处理的概要的框图。
图2B是表示本实施方式的喜好可视化系统和审查系统中的处理的概要的框图。
图3是表示本实施方式的喜好可视化系统和审查系统中的审查场的概要的图(a)、表示审查场的时间变化的图(b)。
图4是表示连接了本实施方式的喜好可视化系统(审查系统)的网络的例子的图。
图5是表示本实施方式的喜好可视化系统和审查系统的概要的框图。
图6是表示本实施方式的喜好可视化系统和审查系统中的部分空间生成装置的概要的框图。
图7是表示本实施方式的喜好可视化系统和审查系统中的候选空间生成装置的概要的框图。
图8是表示本实施方式的喜好可视化系统和审查系统中的监视空间生成装置的概要的框图。
图9是表示本实施方式的喜好可视化系统和审查系统中的履历可视化装置的概要的框图。
图10是表示能够在线使用的喜好可视化系统(审查系统)的概要的框图。
图11是表示能够在线使用的喜好可视化系统(审查系统)中的部分空间生成装置的概要的框图。
图12是表示本实施方式的喜好可视化系统和审查系统中的监视装置的概要的框图。
图13是表示本实施方式的喜好可视化系统和审查系统中的审查控制装置的概要的框图。
图14是表示第一实施例的喜好可视化系统和审查系统的框图。
图15是表示第二实施例的喜好可视化系统和审查系统的框图。
图16是表示第三实施例的喜好可视化系统和审查系统的框图。
具体实施方式
以下,根据附图说明本发明的实施例。
<<本实施方式的概要>>
图1(a)是表示使用了本实施方式的可视化系统和审查系统的主干系统的概要的框图。
主干系统的顾客(个人)通过Web画面上的输入框、邮件、博客、电子公告牌、推特(Twitter)等输入各种文本数据。这成为个人的发言。由主干系统取得这些文本数据。一般,个人的发言作为文本数据以能够经由网络读取的状态被存储在主干系统的服务器中。
主干系统是主要提供EC站点、SNS、检索站点、人工智能站点等的服务的系统。主干系统向主干系统的顾客提供与主干系统对应的个别服务(主干服务)。此外,EC站点主要是利用网络销售本公司的商品、服务的站点。另外,SNS主要是使用各种网络形成社交网络使得能够实现人与人的交流的服务。检索站点是为了取得各种信息而主要提供用于检索目标WEB的服务的站点。另外,人工智能是构成为经由网络提供能够自动进行会话的服务的站点。
主干系统具有存储与主干系统的顾客有关的个人信息的数据库。个人信息是顾客的实名、地址等主干系统提供的服务所需要的与顾客有关的信息。
主干系统向审查系统供给从顾客取得的发言。审查系统具有用于进行各种审查控制的数据库。在审查系统中,如后述那样生成审查场,参照用于进行审查控制的数据库,提供适合于主干系统的审查控制(个别服务)。例如,向被判断为对新产品有兴趣的顾客提供与新产品有关的各种信息。另外,向精神/心理上有负担的顾客提供安抚心灵那样的信息、音乐、动画等。进而,对于进行反社会、反常的发言的情况,切断网络的连接等而能够中止各种服务。
审查系统向可视化系统供给用于对从顾客取得的发言进行审查的信息。可视化系统根据所提供的用于审查的信息积蓄履历信息,并且根据履历信息生成监视信息,供给审查系统。审查系统根据所供给的监视信息,向主干系统提供上述审查控制(个别服务)。
图1(b)是表示本实施方式的可视化系统的概要的框图。可视化系统由审查场生成功能、可视化功能、监视功能构成。审查场生成功能是根据个人的发言生成审查场的功能。可视化功能是用于针对发言从所生成的审查场检测特异性并对特异性进行可视化的功能。监视功能是针对检测出特异性的发言主要监视发言的个人的功能。
图2A和图2B是表示本实施方式的喜好可视化系统和审查系统的概要的框图。
<<第一形式>>
根据本实施方式的第一形式,
是一种具备通过输入接口接收包含由多个字符串构成的文本数据的一个外部信息并执行用于提取出该内容的特异信息的程序的计算机的系统,该计算机执行上述程序来执行以下的处理。
包括:对输入的文本数据进行抽离,变换为预先准备的多个关联文本数据的处理;
在该一个外部信息中关于关联文本数据所表示的对象满足表示预定的特异性的特异条件的情况下,将该关联数据判定为特异的关联文本数据的处理;
将判定为特异的关联文本数据的关联文本数据与包含在该外部信息中的用于识别个人的用户ID以及与特异条件有关的条件关联地存储的处理。
例如,通过具有将在特定的个人的会话中频繁出现的表达作为对该个人特异的表达而捕捉的新喜好提取功能,能够间接地推断该个人喜好的食物、爱好、或有兴趣的类型。
<<第二形式>>
另外,根据本实施方式的第二形式,包括:
从基于由个人生成的个人生成数据的文本数据中抽离包含预定的内容的数据,将进行了抽离的文本数据分解为能够识别含义的分解文本数据的步骤;
将上述分解文本数据与能够识别生成了个人生成数据的个人的用户ID关联地存储的步骤。
参照图2A(a)说明本实施方式的第二形式。首先,从基于由个人生成的个人生成数据的文本数据中抽离包含预定的内容的数据。在本实施方式中,个人生成数据是由个人生成的数据即可。例如有由个人从键盘等输入的文本数据等。在该文本数据中,有输入到Web画面上的输入框、邮件、博客、电子公告板、推特(注册商标)等的数据。另外,在由个人生成的数据中还有声音数据、图像数据等。在声音数据、图像数据等的情况下,通过执行识别处理能够变换为文本数据。基于由个人生成的个人生成数据的文本数据,表示这样从声音数据、图像数据等变换为文本数据所得的文本数据。
另外,预定的内容例如是个人信息等。在此,个人信息是指能够直接确定个人的姓名、住址、电话号码等信息。此外,账户、网名等通过参照其他数据库等有可能可以确定个人,但只有该信息无法直接确定个人,因此不包含在个人信息中。通过抽离这样的预定的内容,能够使得在应该处理的文本数据中不包含个人信息等预定的内容。
进而,将抽离了预定的内容的文本数据分解为能够识别含义的分解文本数据。例如在分解为能够识别含义的分解文本数据的处理中,有词素分析等。通过进行词素分析,能够分离为名词、动词、形容词等预定的词类,能够分离为能够识别含义的单位数据。
进而,还将分解文本数据与用户ID关联地存储。在此,用户ID是能够识别生成了个人生成数据的个人的信息。此外,能够识别个人即可,不必须是确定个人信息的信息。
由此,抽离包含预定的内容的数据,因此能够防止从喜好可视化系统、审查系统向外部泄漏包含在个人生成数据中的个人信息等表示预定的内容的数据。
该分解文本数据与“关联词”对应。
<<第三形式>>
另外,根据本实施方式的第三形式,包括:
将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,提取出上述分解文本数据中的、表示针对上述分解文本数据所示的预定的对象满足预定的关联条件的关联对象的关联文本数据的步骤;
将上述关联文本数据与上述预定的关联条件关联地存储的步骤。
参照图2A(b)说明本实施方式的第三形式。首先,提取出分解文本数据中的表示关联对象的关联文本数据。分解文本数据是如上述那样以能够识别含义的方式分割文本数据所得的单位数据。
关联对象是针对分解文本数据所示的对象满足预定的关联条件的对象。分解文本数据所示的预定的对象,例如是包含在邮件等的文本数据中的各种话题、内容等。具体地说,有某预定的食品、车、观光地等。满足预定的关联条件的关联对象是指与分解文本数据所示的对象关联的对象。关联满足预定的关联条件。例如在预定的对象是食品的拉面的情况下,通过确定预定的关联条件,在关联对象中可以包含酱油味的拉面、盐味的拉面、猪骨味的拉面等。
确定这些预定的对象、关联条件以便能够提取出审查系统的运用者所希望的信息即可。在只提取出预定的对象的情况下,无法提取出关联的对象,有可能提取结果不充分。通过适当地确定关联条件,不只提取预定的对象,还能够提取出包含预定的对象和与之关联的关联对象的信息。通过由审查系统的运用者确定关联条件,能够不过宽并且不过窄地准确地提取出希望的信息。
该提取出表示满足预定的关联条件的关联对象的关联文本数据的步骤与“基本过滤器”对应。一个关联条件与一个基本过滤器对应。通过根据一个关联条件从分解文本数据中提取出关联文本数据的步骤,生成一个域(domain)。在一个域中包含表示预定的对象的分解文本数据、表示关联对象的分解文本数据的双方。由表示预定的对象的分解文本数据、表示关联对象的分解文本数据构成关联文本数据。
域表示由从分解文本数据中提取出的关联文本数据构成的集合(collection)。通过使关联条件不同,生成与该关联条件对应的单一的域。可以由审查系统的运用者确定关联条件。因此,审查系统的运用者可以确定多个关联条件以便能够得到希望的提取结果,针对该各个关联条件生成域。
如图3(a)所示,构成用于表示上述关联条件的域。域用于区分地识别多个关联条件。因此,与多个关联条件的各个对应地生成域。
在图3(a)所示的审查场的例子中,域只有u1~u4这4个,通过如上述那样使关联条件(基本过滤器)不同而生成4个域(u1~u4)。在图3(a)中用虚线围住地表示4个域(u1~u4)的各个。如后述那样,4个域(u1~u4)各自由5个部分空间构成。图3(a)所示的域是表示使用4个关联条件(基本过滤器)生成了4个域(u1~u4)的例子的图。满足与各个域对应的关联条件的关联文本数据属于各个域。
进而,将提取出的关联文本数据与预定的关联条件关联起来存储。由此,不只是关联文本数据,还能够存储提取了它的预定的关联条件,能够准确地确定其后的处理的条件。具体地说,不只将某个人发言的某一个单词作为审查的对象,而能够包含与发言的一个单词关联的单词例如暗语等,能够拓宽应该审查的范围。
<<第四形式>>
另外,根据本实施方式的第四形式,包括:
提取出基于由个人生成的个人生成数据的文本数据中的、针对文本数据所示的对象而满足预定的特征条件的特征文本数据的步骤;
将上述特征文本数据与上述预定的特征条件关联地存储的步骤。
参照图2A(c)说明本实施方式的第四形式。首先,提取出文本数据中的满足预定的特征条件的特征文本数据。预定的特征条件是与文本数据所示的预定的对象的属性相关的条件。属性是预定的对象的特性、特色等各种特征。该各种特征不只是客观的特征,也可以是针对预定的对象的基于感情、心理等的主观表现的特征。
另外,属性可以理解为所谓的喜好。有与预定的对象有关的心理特征、与预定的对象有关的统计特征等。在心理特征中,关于预定的对象,有攻击性、感情性的心理表现、冲动性的心理表现、与欲望有关的表现等。另外,在统计特征中,有与预定的对象有关的次数、时间等各种统计量、得到这些各种统计量的方法、手段等。
将属性(喜好)数值化为特征参数来处理。通过数值化,能够评价审查对象、关联对象的特征。例如,属性可以从包含在基于个人生成数据的文本数据中的形容词性表现、副词性表现等中,提取出生成了个人生成数据的个人的感情、心理等的表现。
具体地说,在预定的对象和关联对象是食品的情况下,作为与预定的对象和关联对象有关的属性,有美味、难吃、甜、辣、热、凉、想吃、不想吃第二次等针对预定的对象和关联对象由个人所述的客观和主观的各种特征。另外,在预定的对象和关联对象是车的情况下,有油耗低、油耗高、环保、混合动力、大型、小型、一定要购买、还没有购买等针对预定的对象和关联对象由个人所述的客观和主观的各种特征。
该提取出满足预定的特征条件的特征文本数据的步骤与“适合过滤器”对应。通过该步骤生成部分空间。在该情况下,从基于个人生成数据的文本数据中提取出特征文本数据。
在上述的本实施方式的第四形式中,表示了从基于由个人生成的个人生成数据的文本数据中提取出特征文本数据的情况,但也可以从在上述第二形式中生成的分解文本数据中提取出特征文本数据,或从在第三形式中提取出的关联文本数据中提取出特征文本数据。
<从关联文本数据中提取特征文本数据的情况>
特别理想的是从在第三形式中提取出的关联文本数据中提取特征文本数据。通过从关联文本数据中提取特征文本数据来生成部分空间。在该情况下,属性不只是预定的对象,而是预定的对象和关联对象的双方的特性、特色等各种特征。该各种特征不只是客观性特征,也可以是基于感情、心理等的主观上表现的特征。由此,不只是提取出表示预定的对象的属性的特征文本数据,还能够提取出表示预定的对象和关联对象的双方的属性的特征文本数据。
在图3(a)所示的审查场的例子中,属性(喜好)只是j=1~5的5个,但通过如上述那样使特征条件9(适合过滤器)不同,能够切换喜好。图3(a)所示的审查场是表示使用5个特征条件(适合过滤器)划定5个喜好的例子的图。
通过在生成的域中确定关联条件(基本过滤器)和特征条件(适合过滤器),能够指定一个部分空间。即,通过根据关联条件(基本过滤器)和特征条件(适合过滤器)进行提取,能够生成部分空间。因此,满足关联条件(基本过滤器)和特征条件(适合过滤器)的特征文本数据属于部分空间。
例如在图3(a)的例子中,通过使用预定的关联条件(基本过滤器)(与i=2对应的关联条件)能够提取出域(u2)。接着,针对该提取出的域(u2)使用预定的特征条件(适合过滤器)(与j=3对应的特征条件)作为喜好,能够提取出域(u2)中的部分空间(e23)((i,j)=(2,3))。即,在图3(a)的例子中,根据20个部分空间(e11~e45)中的预定的关联条件(基本过滤器)和特征条件(适合过滤器),能够提取出一个部分空间。通过提取部分空间,能够提取出属于所提取出的部分空间的特征文本数据。例如,能够提取出属于(i,j)=(2,3)的部分空间的特征文本数据。
如图3(a)所示,4个域(ui)(i=1~4)各自由5个部分空间构成。域(u1)由5个部分空间(e11~e15)构成,域(u2)由5个部分空间(e21~e25)构成,域(u3)由5个部分空间(e31~e35)构成,域(u4)由5个部分空间(e41~e45)构成。
由根据多个关联条件(基本过滤器)和多个特征条件(适合过滤器)生成的部分空间能够构成审查场。在该审查场中,通过使用预定的多个关联条件(基本过滤器)、预定的多个特征条件(适合过滤器),能够指定希望的多个部分空间。由此,能够由审查系统的运用者在需要审查时指定希望的部分空间。
另外,能够从表示预定的对象的分解文本数据和表示关联对象的分解文本数据的双方,提取出满足预定的特征条件的特征文本数据。即,提取出包含预定的对象和关联对象中的满足预定的特征条件的对象的分解文本数据作为特征文本数据。
进而,在审查场中能够提取出由分解文本数据和特征文本数据构成的分布特性。该分布特性反映了审查场中的信息被压抑或变形而放出的情况。根据该分布特性,能够由审查系统的运用者选择需要审查的一个或多个部分空间。
进而,将特征文本数据与预定的特征条件关联地存储。由此,不只是特征文本数据,还能够存储提取出了它的预定的特征条件,能够准确地确定其后的处理的条件。
<<第五形式>>
另外,根据本实施方式的第五形式,包括:
提取出基于由个人生成的个人生成数据的文本数据中的、针对文本数据所示的对象而满足表示预定的特异性的特异条件的特异文本数据的步骤。
参照图2A(d)说明本实施方式的第五形式。首先,提取出文本数据中的满足表示预定的特异性的特异条件的特异文本数据。表示预定的特异性的特异条件例如表示与预定的对象有关的特异性。例如可以根据与预定的对象有关的各种量、程度、变化率等比预定的阈值大或小来判断特异性。各种量、程度、变化率等是能够通过预定的计算处理来计算的参数,描述关于预定的对象所产生的现象的特征。
该提取出满足预定的特异条件的特异文本数据的步骤与“结构过滤器”对应。通过该步骤生成候选空间。在该情况下,能够从基于个人生成数据的文本数据中提取出特异文本数据。
提取出针对文本数据所示的对象而满足表示预定的特异性的特异条件的特异文本数据,因此能够划定应该监视的对象的范围,能够降低在监视结果中包含干扰的可能性。
<<第六形式>>
另外,根据本实施方式的第六形式,包括:
将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,提取出上述分解文本数据中的表示针对上述分解文本数据所示的对象满足预定的关联条件的关联对象的关联文本数据的步骤;
提取出上述关联文本数据中的针对文本数据所示的对象的属性而满足预定的特征条件的特征文本数据的步骤;
提取出关于特征文本数据所示的对象满足表示预定的特异性的特异条件的特异文本数据的步骤。
参照图2B(e)说明本实施方式的第六形式。如图2B(e)所示,能够构成为从特征文本数据中提取出特异文本数据。在此,特征文本数据通过第二形式的用于审查的喜好可视化操作,将基于个人生成数据的文本数据分解为分解文本数据。接着,基于第三形式的用于审查的喜好可视化操作,从分解文本数据中提取出关联文本数据。接着,基于第四形式的用于审查的喜好可视化操作,从关联文本数据中提取出特征文本数据。在第六形式的用于审查的喜好可视化操作中,从这样提取出的特征文本数据中提取出特异文本数据。
通过这样从特征文本数据中提取出特异文本数据,能够在部分空间的内部生成候选空间。例如在图3(a)所示的审查场的例子中,针对20个部分空间,生成满足表示预定的特异性的特异条件的候选空间。只要满足特异条件,则提取出候选空间,构成候选空间的部分空间的个数既可以是一个也可以是多个。
表示预定的特异性的特异条件表示不只与预定的对象有关,而与预定的对象和关联对象的双方有关的特异性。例如,能够根据与预定的对象和关联对象有关的各种个数、量、程度、变化率等比预定的阈值大或小来判断。各种个数、量、程度、变化率等是能够通过预定的计算处理计算的参数,描绘关于预定的对象和关联对象所产生的现象的特征。
特别在作为构成多个部分空间的情况,在一部分的部分空间中的预定的对象和关联对象相对于剩余的部分空间中的预定的对象和关联对象具有某种特异性的情况下,通过提取出满足预定的特异条件的特异文本数据的步骤(结构过滤器),能够提取出表示包含在被判断为具有特异性的一部分的部分空间中的预定的对象和关联对象的特异文本数据。
例如,在某域中的一部分的部分空间中“拉面”这样的词(发言)的出现次数比剩余的部分空间多的情况下,作为满足预定的特异条件,从包含“拉面”的词的关联文本数据、特征文本数据中提取出特异文本数据。另外,在表示新产品的商品名的词的出现次数的变化率比剩余的部分空间多的情况下,作为满足预定的特异条件而提取出特异文本数据。通过这样针对预定的对象和关联对象在多个部分空间之间进行比较,能够取得预定的对象和关联对象不均衡的部分空间、扭曲的部分空间,能够判断与预定的对象和关联对象有关的特异性而提取出特异文本数据。
另外,例如在使后述的预定的一个团体与一个域对应来构成多个部分空间的情况下,能够在多个团体之间发现具有特异性的部分空间,判断与预定的对象和关联对象有关的特异性。
提取出关于文本数据所示的对象满足表示预定的特异性的特异条件的特异文本数据,因此,能够根据预定的关联条件(基本过滤器)、预定的特异条件(适合过滤器)划定应该监视的对象的范围,能够降低在监视结果中包含干扰的可能性。
另外,在多个部分空间中,还具备不只是根据特异文本数据的有无来判断特异性,还根据特异数据的出现频度、分布等判断特异性的重要度的可视化方法。
<<第七形式>>
另外,根据本实施方式的第七形式,包括:
生成与基于由个人生成的个人生成数据的文本数据所示的对象的履历有关的履历信息,提取出基于上述个人生成数据的文本数据中的针对上述履历信息满足预定的履历条件的履历文本数据的步骤;
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的针对上述参照数满足预定的参照条件的参照文本数据的步骤。
在此,作为参照数的计数是基于相当于识别个人的用户ID的数据、或发言的编号等的参照的计数,在推特中相当于RT,在邮件中相当于Re:。例如在提取出与新产品有关的注释的情况下,针对最初发言的人物的新产品的名称=抽离的词,不应该增加最初发言的人物的发言的重要度。对于名人的发言等,如“A先生这样说”、“在多少次发言中都这样说”那样,是用于提取出被关注=参照数增加的情况的参照数,不是单纯的频度、次数多的被抽离的数据。
参照图2B(f)说明本实施方式的第七形式。首先,生成与基于由个人生成的个人生成数据的文本数据所示的对象的履历有关的履历信息。履历信息是表示与文本数据所示的对象有关的履历的信息。例如,有与对象有关的词被包含在文本数据中的次数、频度、包含与对象有关的词的文本数据的个数、频度、出现率等。根据它们能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。通过使用履历信息,不只是使用某一定时刻、一定时期的判断,还能够包含经过、变化的状态地进行判断。另外,还能够针对预定的对象使用某种密度的高度、频度、次数等的大小、基于时间的推移的变化的程度进行判断。
进而,从文本数据中提取出针对该履历信息满足预定的履历条件的履历文本数据。
与用户ID关联地生成参照了基于个人生成数据的文本数据的参照数。参照数是由其他个人参照了基于个人生成数据的文本数据的次数。即,是由其他个人参照了基于由一个个人生成的个人生成数据的文本数据的次数。
进而,从基于个人生成数据的文本数据中提取出针对参照数满足预定的参照条件的参照文本数据。
能够根据履历信息包含随着时间变化的状况地进行检索。另外,能够根据参照数取得与用户ID对应的个人的影响的大小。
在上述的本实施方式的第七形式中,表示了根据基于由个人生成的个人生成数据的文本数据生成履历信息,或提取出履历文本数据的情况,但也可以从在上述第二形式中生成的分解文本数据中提取出履历文本数据,或从在第三形式中提取出的关联文本数据中提取出履历文本数据,或从在第六形式中提取出的特征文本数据中提取出履历文本数据。
<从特征文本数据中提取履历文本数据的情况>
从在第六形式中提取出的特征文本数据中提取履历文本数据特别理想。通过从特征文本数据中提取出履历文本数据,根据候选空间生成监视空间。即,如图3(a)所示,通过第三形式生成域,通过第四形式生成部分空间,通过第五形式生成候选空间,通过本第七形式生成监视空间。
在该情况下,不只与预定的对象有关,而与预定的对象和关联对象的双方有关的词被包含在文本数据中的次数、频度、包含与对象和关联对象有关的词的文本数据的个数、频度、出现率等。由此,能够得到生成了个人生成数据的个人在过去生成与对象和关联对象有关的信息的次数、频度、出现率。通过使用履历信息,不只是使用了某一定时刻、一定时期的判断,还能够包含经过、变化的状态地进行判断。另外,关于预定的对象还能够使用某种密度的高低、频度、次数等的大小、基于时间的推移的变化的程度来进行判断。由此,如图3(b)所示,能够提取出随着时间变化的部分空间而生成为监视空间。
<<第八形式>>
另外,根据本实施方式的第八形式,还具备:
根据上述履历文本数据生成监视信息的步骤。
例如,监视主要表示根据履历文本数据,监视生成了成为履历文本数据的源的个人生成数据的个人,或根据履历文本数据,监视履历文本数据所示的对象,或监视个人和对象的双方。监视信息是表示应该监视的个人、对象、对它们的监视的内容、方法等的信息。另外,通过使用用户ID能够确定应该监视的个人。
<<第九形式>>
另外,根据本实施方式的第九形式,还具备:
根据上述监视信息生成审查控制指令的步骤。
作为与应该监视的个人、对象、对它们的监视的内容、方法等对应地具体的可执行指令,而生成审查控制指令。例如,有时能够通过对应该监视的用户ID发送预定的消息、预定的数据的软件处理来执行审查控制指令。另外,还有时通过切断网络的电连接等的硬件处理来执行审查控制指令。另外,审查控制指令有时还执行与个人的喜好特性匹配的新信息的提供。这样,不只是针对个人抑制或变形服务的提供,还包含进行新的服务、关联信息的提供的情况。
根据以上,还能够提供以下这样的信息处理系统。
信息处理系统具备:
审查场生成单元,其将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,从上述分解文本数据中针对上述分解文本数据所示的对象提取出满足预定的关联条件和预定的特征条件的数据,生成所提取出的第一提取数据的集合作为审查场;
可视化单元,其从上述第一提取数据的集合中提取出关于上述对象满足表示预定的特异性的特异条件的数据,从提取出的第二提取数据中检测出上述预定的特异性并可视化。
进而,理想的是信息处理系统具备:
监视单元,其根据上述第二提取数据决定应该监视的个人和进行监视的控制的监视内容。
<<包含监视系统的网络环境>>
图4是表示连接了本实施方式的监视系统(审查系统)的网络的例子的图。
<<网络10>>
在网络10上能够通信地连接有各种终端装置、监视系统100。在网络10中将由路由器、集线器等各种通信设备(未图示)构成的节点相互连接而形成通信网。网络10与有线、无线、专用线路、交换线路、局域网(LAN)等的种类无关地,能够在与网络10连接的各种终端装置、监视系统100之间进行通信。将在网络10中流通的各种信息分割为多个分组等来在节点之间转送。由此,能够从发送源的终端装置到发送目的地的终端装置发送信息。
<<终端装置>>
在能够通信地与网络10连接的各种终端装置中有计算机12、便携电话14、固定电话机(包含IP电话机)16、便携终端装置(未图示)等。便携终端装置经由无线通信网(未图示)与网络10连接。另外,固定电话机16经由固定电话网(未图示)与网络10连接。终端装置主要由个人操作,能够向网络10发送个人输入或生成的各种数据。
<<服务器20>>
服务器20保存在各种终端装置中输入或生成的各种数据。服务器20例如有Web服务器、邮件服务器、数据库服务器等各种服务器。服务器20与其种类、功能、个数无关,只要经由网络10能够由监视系统100读出地存储从终端装置发送的数据即可。
另外,服务器20还存储用于识别作成了在终端装置中输入或生成的数据的作成者的作成者识别数据。还有时在终端装置中输入或生成的数据自身中包含作成者识别数据。进而,还存储表示在终端装置中输入或生成了数据的日期时间的日期时间数据。这些作成者识别数据、日期时间数据与在终端装置中输入或生成的数据同样地,能够由监视系统100读出地存储即可。
<<监视系统100(审查系统)>>
监视系统100始终或在每预定时刻与网络10连接。监视系统100主要收集并取得积蓄在服务器20中的各种数据。此外,也可以不从服务器20而收集从各种终端装置发出的各种数据。在任意的情况下,只要可以经由网络取得由个人操作各种终端装置而输入/生成的各种数据即可。以下,说明从服务器20取得各种数据的情况。
在终端装置中输入或生成的数据主要是由个人输入或生成的文本数据。此外,文本数据即使是二进制形式,只要能够变换为文本形式即可。
这些文本数据只要是作为博客生成的数据、所谓的推特等那样的短的数据等个人经由网络10发送的数据,并且是能够由监视系统100经由网络10收集的数据即可。即,只要是个人经由网络10向公众发送并能够由监视系统100收集的文本形式的数据即可。
另外,在终端装置中输入或生成的数据除了文本数据以外,还有声音数据、图像数据等。即使是这样的声音数据、图像数据等,通过声音识别、图像识别等各种识别处理也能够变换为文本数据。除了原来就是文本数据的数据,监视系统100还将变换为文本数据的数据作为处理的对象。从声音数据、图像数据向文本数据的变换既可以在监视系统100中执行,也可以在监视系统100的外部执行。
<<监视系统100的结构>>
监视系统100具备中央处理装置(CPU)、随机存取存储器(RAM)、只读存储器(ROM)、输入输出接口(I/O)以及外部存储装置。通过由它们依照预定的程序发挥功能,构成后述的审查场生成装置、监视信息提取装置、候选空间生成装置等。
<<变换装置>>
监视系统100具备输入输出接口(I/O)。监视系统100经由输入输出接口(I/O)与网络10连接。监视系统100经由网络10收集各种数据。变换装置在收集到的数据是文本数据的情况下,不对文本数据进行加工。另一方面,变换装置在收集到的数据是声音数据、图像数据等的情况下,选择与数据的形式对应的识别处理,变换为文本数据。此外,如上述那样,数据的变换既可以在监视系统100中执行,也可以在监视系统100的外部执行。
这样,在本实施方式的监视系统100中处理的文本数据中,有不经过变换装置的处理而原来是文本数据的数据、通过变换装置变换为文本数据的数据。以下,将这些数据称为处理用文本数据。在处理用文本数据中包含人物、物品、地名等成为对象的各种单词。
<<处理用文本数据的对应>>
如上述那样,服务器20还以能够由监视系统100读出的方式存储作成者识别数据和日期时间数据。使作成者识别数据和日期时间数据与处理用文本数据对应。由此,能够使用作成了处理用文本数据的作成者、作成了处理用文本数据的日期时间来进行检索。
<<个人数据的抽离>>
处理用文本数据是各种个人输入或生成的数据。因此,在处理用文本数据中有可能包含各种个人信息。本实施方式的监视系统100从保护个人信息的观点出发,进行从处理用文本数据中抽离个人信息的处理。例如,判别确定个人的人名、该个人的地址、电话号码、邮件地址等,从处理用文本数据中抽离它们并对处理用文本数据进行加工。
<<关联词句的生成>>
处理用文本数据是表示作成者表现的各种对象的数据。例如,对象表示有名的人物、食品、车、音乐、旅行等各种领域中的概念。为了设为表示该对象的数据,执行将处理用文本数据分割为由有预定的含义的最小字符串构成的单位数据的处理。例如,通过对处理用文本数据进行词素分析,能够分解为词素这样的单位数据。此外,分割为表示对象的数据的处理并不限于词素分析,只要是从处理用文本数据分离为希望的字符串的数据的处理即可。
处理用文本数据与作成者识别数据和日期时间数据对应。因此,可以直接将与处理用文本数据对应的作成者识别数据和日期时间数据与表示对象的字符串数据对应起来。
如上述那样,对象是有名的人物、食品、车、音乐、旅行等概念。因此,在对象中存在同义词、近义词、暗语等相关联的关联对象。为了防止检索的遗漏,对表示一个对象的数据至少附加表示关联对象的数据。例如,通过使用预定的词典,能够导出同义词、近义词、暗语等相关联的关联对象。
参照图5,说明更具体的喜好可视化系统和审查系统。
<第一阶段>
作为第一阶段,通过执行抽离程序,将输入的各种表现(文本数据)加工为例如由类型、喜好或方言、感情等多个类别构成的关联词(将能够识别含义的多个分解文本数据变换为预先确定的关联文本数据所得的结果)。该加工处理是用于分析在关联词的群中是否存在预先准备的希望监视的特异的关联词的处理的预处理。通过进行该加工处理,即使关联词的群自身泄漏到外部,也能够避免泄漏个人信息的问题。
经由输入接口从外部输入上述的文本数据。作为输入了文本数据的“某个人”,能够根据用户ID确定针对关联词成为审查的对象的人(以下称为审查人)。关联地成对地处理该用户ID和关联词。
在该关联词中,例如包含:(1)明确地可知是审查对象的用语;(2)对关注的人来说可知是审查对象的用语;(3)对专家来说可知是审查对象的用语等暗语。因此,与如现有技术那样只提取出并确定发出了某预定的词汇、例如危险的词汇或某用语的用户的审查不同。
例如,如果是对某歌手有兴趣的人,则有时针对该歌手输入性格相合等,另外如果是对车有兴趣的人,有时有可能通过使用“适合于节能的”、“环保”这样的表现来提到混合动力车、电动车。因此,通过第一过滤处理(例如与基本过滤器对应),在计算机将“适合于节能的”与关联词关联来置换的情况下,置换为“混合动力”或“电动”来生成审查场。该审查场的生成是用于生成后面的部分空间、监视空间的过滤的预处理。
并且,如上述的(1)~(3)那样,由所置换的关联词不同的暗语水平不同的多个过滤器(基本过滤器)构成,因此,生成与这些基本过滤器的个数相同个数的域。通过变更暗语水平不同的基本过滤器,能够成为适合于针对关联词成为审查的对象的人是精通某行业的人的情况的过滤器,或成为适合于运用该审查系统的运用者的特有的过滤器(域用语),能够成为提高审查系统的设计的自由度而容易运用的系统。
对每个上述的基本过滤器划定域。
进而,在直接根据原始的文本数据生成域的情况下,在没有得到本人的允许而个人信息泄漏到外部时,可能产生法律问题。在这样的情况下,通过使用暗语水平不同的多个过滤器来抽离个人信息,并且变换为上述关联词,能够避免从审查对象中排除的问题。
在该域中,与后面生成的部分空间、候选空间、监视空间同样地,在该空间中将审查人和关联词关联起来。
<第二阶段>
接着,作为第二阶段,通过针对在第一阶段中生成的域执行第二过滤处理,生成与每个第二过滤处理对应的部分空间。在第二过滤处理中,也维持审查人和关联词的关联,因此在通过第二过滤处理生成的部分空间中,也将审查人和关联词关联起来。成对地对审查人和关联词进行处理,并且执行适合于预先准备的多种类型的每种类型的第二过滤处理。第二过滤处理的多种过滤器可以是数百、数千的许多过滤器。
更具体地说,“适合于预先准备的多种类型的每种类型的第二过滤处理”的过滤器可以是暗语过滤器、分类过滤器或心理过滤器。例如,针对域,过滤是否使用了某一个暗语。
例如,在域是根据学校的学生进行写入的WEB的电子公告板的内容而生成的空间的情况下,如果针对某作为暗语的关联词“烦人”通过一个暗语过滤器进行第二过滤处理,则能够提取出将与该关联词对应的用户ID与关联词“烦人”关联起来所得的一连串关联文本数据群。在该情况下,有可能提取出严格地关联的关联文本数据群。
另外,如果用表示某心理的关联词进行第二过滤处理,则在域中提取出与该心理关联的用户ID和出现该关联词的一连串其他关联词(其他关联文本数据),生成部分空间。作为暗语,根据地区、地域、行业而存在各种表现,因此理想的是设计为能够由运用审查系统的运用者侧进行设定。
另外,也可以设定为对从外部输入的文本数据的能够识别含义的多个分解文本数据分配某一个关联词。通过这样构成,能够用一个关联词监视具有各种表现的相同含义的分解文本数据。在该情况下,构成为参照用于向分解文本数据分配一个关联词的查阅表等即可。
进而,在实时地监视新输入的外部信息的情况下,可以在比外部信息更宽的某范围中监视以各种形式表现出的外部信息是否与作为应该监视的监视信息的关联词对应。另一方面,通过作为新的特异的关联词而将成为监视对象的用户ID所频繁使用的关联词作为监视对象,还能够容易地监视随着时间经过而变迁的变化。
根据通过第二过滤处理生成的部分空间而生成履历信息,存储在履历信息数据库中。履历信息是指定构成部分空间的域,并指定在第二过滤处理中使用的适合过滤器的种类,由此对该域附加特征,能够判断包含有怎样的关联词的信息。
另外,可以设置用于将履历信息数据库的信息输出到外部的可视化装置的输出接口。作为可视化装置,例如有以用字符串表示的表形式在显示器上视觉地显示进行外部输入的日期时间、用于确定输入了该外部信息的个人的用户ID、从外部信息变换所得的关联词群的装置、或在显示器上作为柱形图、曲线图而视觉地显示的装置等。
<第三阶段>
进而,作为第三阶段,针对在第二阶段中生成的部分空间,执行第三过滤处理。第三过滤处理是适合于关于包含在部分空间中的关联词判断是否是特异的状况的过滤处理。即,针对某监视水平的不同的每个关联词,执行是否满足预定的特异条件的判定处理,提取出满足特异条件的关联词作为候选空间。在提取出的候选空间中,对每个用户ID包含关联文本数据。
“是否满足特异条件”是指在暗语水平中被设定为危险水平的“毒品”、“杀人”、“欺负”、“自杀”、“核弹”、“超美味”例如只出现一次的情况下,通过“舒服”、“核”、“难受”、“美味”出现在一连串的外部信息中的频度高(例如10次)这样的预先确定的判定来进行过滤。
<第四阶段>
进而,作为第四阶段,根据基于候选空间的上述输入日期时间数据的履历信息,判定是否将上述候选对象的用户ID设定为监视对象,为了根据包含设定为该监视对象的用户ID的上述特异因素的候选空间、以及该用户ID的上述输入日期时间数据不同的其他部分空间的关联文本数据群,决定监视空间的设定,而执行第四过滤处理程序。另外,将在上述监视空间中设定的关联文本数据和成为监视对象的用户ID作为上述监视信息,以能够为了后面的监视而取出的状态存储在数据库中。“以能够为了后面的监视而取出的状态存储在数据库中”是指将存储有监视信息的监视信息数据库与监视装置连接,在从外部输入了外部信息的情况下,在是来自监视对象者的用户ID的外部信息的情况下,将与之关联的审查指令输出到外部,另一方面,在不是监视对象者的用户ID的情况下,在存在包含监视对象者所使用的作为特异因素的关联词的部分空间的情况下,也将与之关联的审查指令输出到外部。
<<本实施方式的审查系统的详细>>
<<审查>>
通过本实施方式的审查系统,产生将由主干系统的使用者形成的场作为审查场这样的审查的概念。因此,本实施方式的审查系统的审查与简单的审查不同,根据审查系统所提供的功能、服务而具有特征。
本实施方式的审查系统不只是发现和监视进行反社会的发言、反常的发言等的个人,还可以通过发言发现精神上和/或心理上不稳定而烦恼的个人、感觉到痛苦的个人,为了保护而进行适当的对应。这样,本实施方式的审查系统是能够包含个人的精神状态、心理状态地进行处理的系统。
<<发言>>
在本实施方式中,发言主要是指将各种信息写入到邮件、SMS、博客、推特、Web画面上的输入框、电子公告板等中。该发言的内容是本实施方式的审查系统的审查的对象。本实施方式的审查系统取得写入到邮件、SMS、博客、推特、Web画面上的输入框、电子公告板等中的信息,对发言的内容进行分析。写入到邮件、SMS、博客、推特、Web画面上的输入框、电子公告板等中的信息主要是文本数据的形式。
此外,在本实施方式的审查系统中,即使是声音数据、图像数据等形式,只要是能够变换为文本数据的数据,则也作为发言而处理,成为审查的对象。例如,通过进行识别处理,即使是声音数据、图像数据等各种数据形式,只要能够变换为文本数据即可。本实施方式的审查系统使用变换后的文本数据对内容进行分析,作为发言而成为审查的对象。
本发言与“由个人生成的个人生成数据”、“基于由个人生成的个人生成数据的文本数据”对应。
<<个人信息>>
在本实施方式中成为对象的个人信息是只根据该信息就能够确定个人的信息。例如,是姓名、地址等。另一方面,在只根据该信息无法确定个人,而通过参照其他信息能够确定个人的情况下,不将该信息作为个人信息处理。本实施方式的审查系统对包含在个人发出的发言的内容中的个人信息进行抽离来处理。
<<关联词>>
本实施方式的审查系统以被称为关联词的关键词为基础而构成,根据关联词所保持的关联信息,实现审查系统所提供的功能、服务。因此,关联词与在通常的检索处理等中使用的所谓关键词不同。关联词与简单的关键词不同,为了构成后述的履历信息、监视信息等信息,例如可以将域、喜好等各种信息相互关联起来。
该关联词包含用于表现包含在发言的内容中的预定的对象的数据。包含在发言中的对象,是指希望通过个人发言而表现的具体的实体性事物、抽象观念等。
关联词与“关联文本数据”对应。
<<唯一ID(用户ID)>>
唯一ID是用于确定进行了发言的个人的信息。审查系统将唯一ID与发言的内容关联而作为关联词进行管理。唯一ID不是个人信息自身。唯一ID例如有电话号码、执照编号、IP地址、电子公告板中的网名等。唯一ID通过参照其他信息能够确定个人。因此,不会将个人信息从审查系统泄漏到外部,但审查系统的运用者能够使用唯一ID确定个人。
<<日期时间信息>>
日期时间信息是表示由个人发言时的年月日和时分秒等信息。与唯一ID同样地,审查系统将日期时间信息与发言的内容关联起来作为关联词进行管理。此外,不需要使用年月日和时分秒的全部信息,由审查系统的运用者适当地选择希望的信息来使用即可。例如,能够根据发送邮件的日期时间、写入到电子公告板中的日期时间取得日期时间信息。
<<域>>
在本实施方式的审查系统中,从个人发言的内容中提取出表示审查系统的运用者所希望的预定的对象的关联词来作为审查的对象。为了从个人的发言的内容中提取出表示预定的对象的关联词,在审查系统中,首先使用基本过滤器。
进而,在本实施方式的审查系统中,不只是表示包含在个人发言的内容中的预定的对象的关联词,还将表示与该预定的对象关联的关联对象的关联词的双方作为审查的对象。如上述那样,预定的对象是希望通过个人发言而表现的具体的实体性事物、抽象观念等。另外,关联的对象是通过除了使用表示预定的对象的词的同义词、同意词、近义词、联想词、近意词、关联词等以外还使用暗语等,从预定的对象扩展出的对象。使用表示预定的对象的关联词、表示从该预定的对象扩展出的关联对象的关联词的双方作为审查的对象。
在本实施方式的审查系统中使用的基本过滤器是用于提取表示审查系统的运用者所希望的预定的对象的关联词、表示与该预定的对象关联的关联对象的关联词的双方的过滤器。通过使用基本过滤器,能够提取表示预定的对象的关联词、表示关联对象的关联词的双方来作为审查的对象。由此,还能够将同义词、暗语等作为审查的对象,能够准确地实现审查系统的运用者所希望的审查。
为了从预定的对象扩展到关联对象,也可以使用一般能够得到的所谓的词典来构成基本过滤器。另外,也可以使用审查系统的运用者独自积蓄/作成的词典来构成基本过滤器。以能够由审查系统的运用者适当地变更基本过滤器的方式构成审查系统,由此能够将关联对象扩展到审查系统的运用者所希望的范围,能够实现更准确的审查。
可以设定至少一个基本过滤器。通过使用一个基本过滤器,从个人发言的内容中提取出表示预定的对象的关联词和表示关联对象的关联词的双方,能够形成一个域。一个域是包含由基本过滤器提取出的表示预定的对象的关联词和表示关联对象的关联词的集合(collection)的区域。在设定了多个基本过滤器时,形成与其各自对应的域。由此,能够提取出各种表示预定的对象的关联词和表示关联对象的关联词,能够更准确地执行审查。
作为多个基本过滤器,能够确定用于针对多个类的每个类区分关联词的的过滤器。由此,能够对多个类的每个类区分地提取表示包含在个人发言的内容中的各种对象的关键词(关联词),由提取出的关联词形成域。例如,作为预定的类,有预定的类型、主题、类别等。
图3(a)是表示部分空间和审查场的例子的图。在图3(a)所示的审查场中,一个单元表示一个部分空间。将在后面说明部分空间。该图3(a)所示的审查场由通过4个基本过滤器形成的4个域(u1~u4)构成。如图3(a)所示,使用多个用于表示基本过滤器(关联条件)的域。即,第一基本过滤器与第一域(i=1)对应,第二基本过滤器与第二域(i=2)对应,第三基本过滤器与第三域(i=3)对应,第四基本过滤器与第四域(i=4)对应。这样,域用于区分地识别多个基本过滤器。
由第一基本过滤器生成域(u1)。第一域是表示包含在个人发言的内容中的预定的对象、关联对象的关联词中的、与第一基本过滤器的设定条件对应地提取出而形成的集合的区域。同样,第二域(u2)是由表示与第二基本过滤器的设定条件对应地提取出的预定的对象、关联对象的关联词形成的集合的区域,第三域(u3)是由表示与第三基本过滤器的设定条件对应地提取出的预定的对象、关联对象的关联词形成的集合的区域,第四域(u4)是由表示与第四基本过滤器的设定条件对应地提取出的预定的对象、关联对象的关联词形成的集合的区域。通过这样形成域,在各个域中分别包含至少一个表示预定的对象、关联对象的关联词。
<<喜好>>
在本实施方式的审查系统中,针对个人发言的内容,包含其感情地进行审查。一般在个人对预定的对象进行发言时,有具有良好感情地对预定的对象进行发言的情况、具有不好的感情地对预定的对象进行发言的情况。例如,在对某商品发言时,针对该商品有不希望购买或绝对不希望使用等感到不满的情况、一定要购买等的满足的情况。因此,即使在个人对相同对象发言的情况下,在只是简单地按照关键词进行检索时,检索结果有时成为参考,也有时不成为参考。从这样的观点出发,从发言的内容中取得对预定的对象的感情,使得能够将感情也作为审查的对象。
在本实施方式的审查系统中,将对预定的对象的感情作为与预定的对象有关的喜好来处理。对于喜好,从个人发言的内容中,具体地说从邮件、SMS、博客、推特、Web画面上的输入框、电子公告板等的文本数据中,提取出表示预定的对象的词、形容词、副词、动词等,对这些形容词、副词、动词等进行分类来分析对预定的对象的喜好。这时,还分析对预定的对象的感情的程度。例如,作为喜好还包含具有非常良好的感情、具有大致良好的感情、几乎不觉得好、觉得极其不好等感情程度来处理。另外,还将表现该感情的次数等作为喜好进行处理。即,还将好几次称赞商品、好几次说坏话、只进行了一次发言的情况作为喜好来处理。
喜好并不限于基于感情的表现,还包含基于心理的表现。即,喜好是基于对包含在个人的发言中的预定的对象的感情或心理的主观表现的特征。换一种说法,喜好是个人对预定的对象的感觉、思考、感想等。喜好只要是能够从邮件、SMS、博客、推特、Web画面上的输入框、电子公告板等的文本数据中提取的主观的表现即可。喜好根据文本数据被特征参数化,使得能够计算地作为数值而处理。
在本实施方式的审查系统中,为了从个人的发言的内容中提取出对预定的对象的喜好而使用适合过滤器。可以设定至少一个适合过滤器。使用一个适合过滤器,能够从个人发言的内容中提取出对预定的对象的喜好。一个喜好作为通过一个适合过滤器提取出的喜好,表示对预定的对象的喜好。在设定了多个适合过滤器时,提取出与各个对应的喜好。由此,能够提取出对预定的对象的各种喜好,能够包含对预定的对象的感情、心理状态地实现审查。
如上述那样,图3(a)是表示部分空间和审查场的例子的图。在图3(a)所示的审查场中,一个单位表示一个部分空间。将在后面说明部分空间。审查场例如是由从个人的发言的内容中取得而成为审查的对象的文本数据的集合(collection)构成的空间。更具体地说,审查场由成为审查的对象的至少一个文本数据构成,在有多个文本数据的集合的情况下,由这些集合构成。审查场例如如图3(a)所示,是作为横轴具有喜好的轴、作为纵轴具有域的轴的空间(平面)。进而,审查场如图3(b)所示,可以是除了喜好的轴、域的轴以外还具有时间的轴的空间。
如上述那样,审查场是由成为审查的对象的文本数据的集合(collection)构成的空间。该集合并不必须是在数学中使用的集合的概念,只要是收集文本数据而形成的即可。另外,也可以由同一文本数据构成多个集合。例如,可以由同一文本数据构成第一集合和第二集合来构成审查场。另外,例如可以由一个集合构成一个部分空间。
该图3(a)所示的审查场具有与5个适合过滤器分别对应的5个喜好(j=1~5)。如图3(a)所示,使用多个用于表示适合过滤器(特征条件)的喜好。即,第一适合过滤器与第一喜好(j=1)对应,第二适合过滤器与第二喜好(j=2)对应,第三适合过滤器与第三喜好(j=3)对应,第四适合过滤器与第四喜好(j=4)对应,第五适合过滤器与第五喜好(j=5)对应。这样,适合过滤器用于区分地识别多个喜好。
包含在第一喜好中的部分空间,是对包含在个人发言的内容中的预定的对象、关联对象的各种喜好中的、与第一适合过滤器的设定条件对应地提取出而形成的集合的区域。同样,包含在第二喜好(j=2)中的部分空间,是由与第二适合过滤器的设定条件对应地提取出的对预定的对象、关联对象的喜好形成的集合的区域,包含在第三喜好(j=3)中的部分空间,是由与第三适合过滤器的设定条件对应地提取出的对预定的对象、关联对象的喜好形成的集合的区域,包含在第四喜好(j=4)中的部分空间是由与第四适合过滤器的设定条件对应地提取出的对预定的对象、关联对象的喜好形成的集合的区域,包含在第五喜好(j=5)中的部分空间是由与第五适合过滤器的设定条件对应地提取出的对预定的对象、关联对象的喜好形成的集合的区域。
如上述那样,在图3(a)所示的审查场中,一个单元表示一个部分空间。如后述那样,通过基本过滤器生成域,通过适合过滤器从域中提取出而形成部分空间。
<<基本过滤器、适合过滤器、部分空间>>
图6是表示基本过滤器、适合过滤器、部分空间的概要的图。
<基本过滤器>
基本过滤器是用于提取出个人的发言中的由本实施方式的审查系统作为审查的对象的关联词的过滤器。例如,个人的发言如图6所示,是积蓄的许多个人数据。个人数据既可以是积蓄在预定的服务器中的数据,也可以由审查系统收集而积蓄的数据。
基本过滤器不只能够提取出表示包含在个人发言的内容中的预定的对象的关联词,还能够提取出表示与该预定的对象关联的关联对象的关联词。通过使用基本过滤器,不只是简单的关联词,还能够将可以从关联词所表示的对象联想出或与关联词关联的词、关联词的暗语、关联词的同义词等作为审查的对象。
如图6所示,作为构成基本过滤器的关联词的暗语水平,也可以如水平A:对一般公众来说能够理解明确地是审查对象的用语、水平B:对关心的人来说可知是审查对象的用语、水平C:对关联词的专家等来说可知是审查对象的用语等那样进行设定。另外,暗语可以选择暗语水平地可视化。例如,在水平C的暗语被存在许多个的水平A的暗语所掩盖的情况下,也进行可视化使得能够相互比较。
通过由基本过滤器提取出个人的发言中的预定的关联词来生成域。如图6所示,具体地说,由第i个基本过滤器提取出个人的发言中的预定的关联词,根据提取出的关联词生成第i个域ui。在该域ui中,提取出的关联词与成为审查的对象的人(以下称为审查人)关联起来。审查人是由上述的唯一ID确定的人。
与基本过滤器对应地生成域ui。如图3(a)所示,通过对基本过滤器进行变更来处理,能够根据个人的发言生成多个域ui
通过部分空间生成装置中的基本过滤器生成域ui。在部分空间生成装置中,能够由运用者设定基本过滤器,能够从个人的发言中提取出运用者所特有的关联词,能够从个人的发言中没有遗漏地提取出关联词。域是由关联词(关键词)构成的集合。进而,域是将唯一ID与提取出的关联词关联,在调节暗语水平的同时包含应该成为审查的对象的关联词和审查人的对的集合的空间。
可以由关联词收集装置收集关联词。另外,可以由同义词扩展支持装置扩展暗语等同义词。关联词收集装置、同义词扩展支持装置由运用者管理而工作,使得能够进行审查系统的运用者所希望的审查。
<适合过滤器>
适合过滤器是用于从个人的发言的内容中提取出对预定的对象的喜好的过滤器。如上述那样,喜好是对包含在个人的发言中的预定的对象的基于感情、心理的主观表现的特征。即,喜好是个人对预定的对象的感觉、思考、感想等。喜好被特征参数化,使得能够计算地作为数值而处理。
如图6所示,适合过滤器可以由分类过滤器、暗语过滤器、心理过滤器构成。分类过滤器是用于分类地提取出对由关联词表示的预定的对象的喜好的过滤器。暗语过滤器是用于在用暗语表现对预定的对象的喜好的情况下也能够提取的过滤器。心理过滤器是用于能够提取对预定的对象的基于心理的表现的过滤器。
适合过滤器由分类过滤器、暗语过滤器、心理过滤器中的至少一种构成。分类过滤器、暗语过滤器、心理过滤器分别有多种的情况下,可以由它们的组合构成一个适合过滤器。例如,由分类过滤器、暗语过滤器、心理过滤器的组合构成第j个适合过滤器Cj
<部分空间>
如上述那样,与基本过滤器对应地根据个人的发言生成域ui。针对域ui使用第j个适合过滤器Cj计算ui∩Cj,由此从包含在域ui中的关联词中提取出满足适合过滤器Cj的关联词,根据提取出的关联词生成部分空间eij。通过这样进行处理,部分空间eij成为由包含在个人的发言中的关联词中的通过基本过滤器(第i个域)和适合过滤器Cj的双方提取出的关联词构成的集合。另外,部分空间与域同样地,是将唯一ID与提取出的关联词关联而包含应该成为审查的对象的关联词和审查人的对的集合的空间。
通过部分空间生成装置根据包含在域ui中的关联词,使用适合过滤器Cj生成部分空间eij。在部分空间生成装置中,能够由运用者设定适合过滤器,能够从个人的发言中提取出运用者特有的喜好,能够从个人的发言中没有遗漏地提取出喜好。
基本过滤器与“预定的关联条件”对应。适合过滤器与“预定的特征条件”对应。包含在部分空间中的关联词与“第一提取数据”、“特征文本数据”对应。
<<结构过滤器/候选空间>>
图7是表示结构过滤器和候选空间生成装置的概要的图。
结构过滤器是用于提取出包含在部分空间eij中的关联词中的表示特异性的关联词的过滤器。例如,结构过滤器是用于提取出满足对预定的对象发言的次数非常多、或者在某时期突然对预定的对象开始发言的特异条件的关联词的过滤器。
提取出通过适合过滤器提取出的部分空间中的、包含满足特异条件的关联词的部分空间,根据提取出的部分空间生成候选空间。
例如如图7所示,能够用基于对审查人和关联词的组x定义的各种关联词特性的条件来表示特异条件。
作为关联词特性,例如有第i个关联词的属性i、第i个关联词的暗语水平Li、第i个关联词的审查场频度Ni、第i个关联词的审查场出现率Ni/Nd(Nd:全部关联词数)、第i个关联词的部分空间频度ni、第i个关联词的部分空间出现率ni/ns(ns:全部关联词数)、部分空间的权重α(=ns/Nd)、第i个关联词的特异指标Δ(=(ni/Ni)/α)等。
进而,还可以使用Si、Si/Sd、si、si/ss、β=ss/Sd、Δs=(si/Si)/β等作为特异条件。它们是表示部分空间中的覆盖率的参数,Sd是审查场中的审查语句数,ss是部分空间中的审查语句数。
通过使用这样的各种关联词特性,能够容易地发现体现特异性的关联词。提取出包含这样的体现了特异性的关联词的部分空间来生成候选空间。例如,部分空间中的特异性有在部分空间中关联词存在的不均衡、偏斜等特性。
如图7所示,使用与关联词的特异条件cij对应的结构过滤器,计算σij={x|x∈eij,Δ(x)≥cij},由此从通过适合过滤器生成的部分空间eij所包含的关联词中提取出满足特异条件cij的关联词,根据提取出的关联词生成候选空间σij。通过这样进行处理,候选空间σij成为由包含在个人的发言中的关联词中的通过基本过滤器(第i个域)、适合过滤器Ci、结构过滤器这3种过滤器提取出的关联词构成的集合。另外,候选空间与部分空间同样地,是将唯一ID与提取出的关联词关联起来而包含应该成为审查的对象的关联词和审查人的对的集合的空间。审查人是根据上述的唯一ID确定的人。
通过候选空间生成装置从包含在部分空间eij中的关联词中,使用满足特异条件cij的关联词,使用结构过滤器生成候选空间σij。在候选空间生成装置中,可以针对运用侧指定的每个域或喜好,定义关联词的特异特性,因此,能够提取出与运用侧的服务密切相关的审查人和关联词。将该使用结构过滤器提取出的关联词称为特异关联词。另外,将与使用结构过滤器提取出的关联词关联的审查人称为候选人(成为应该监视的候选的人)。
适合过滤器与“表示预定的特异性的特异条件”对应。候选空间中包含的关联词与“特异的关联文本数据”对应。
<<平衡过滤器/监视空间>>
图8是表示平衡过滤器和监视空间生成装置的概要的图。
平衡过滤器是用于针对包含在候选空间中的关联词提取出满足预定的履历条件的关联词而生成监视空间的过滤器。履历条件是与关联词有关的条件。例如,履历条件是能够根据与是某个人总是发言的关联词、是某个人首先发言的关联词、还是当前许多个人发言而成为话题的关联词等的关联词相关的履历而确定的条件。通过对于关联词进行各种统计处理,能够判断是否满足履历条件。
例如,使用与关联词相关的履历条件histij所对应的平衡过滤器计算fij={(m,w,h)|x=(m,w)∈σij,h∈histij},由此,从包含在由结构过滤器生成的候选空间σij中的关联词中提取出满足履历条件histij的关联词,根据提取出的关联词生成监视空间fij。在此,h=h(frequency(x),reference(m))。通过这样进行处理,监视空间fij成为由包含在个人的发言中的关联词中的通过基本过滤器(第i个域)、适合过滤器Cj、结构过滤器、平衡过滤器这4种过滤器提取出的关联词构成的集合。进而,监视空间与部分空间、候选空间同样地,是将唯一ID与提取出的关联词关联起来而包含应该成为审查的对象的关联词和审查人的对的集合的空间。审查人是根据上述的唯一ID确定的人。
通过监视空间生成装置从包含在候选空间σij中的关联词中,使用平衡过滤器,使用满足履历条件histij的关联词生成监视空间fij。在监视空间生成装置中,可以针对运用侧指定的每个域或喜好定义履历条件,因此能够提取出与运用侧的服务密切相关的监视人、特异关联词。
如图8、图9所示,针对候选空间σij能够构成x∈σij的履历可视化装置,针对监视空间fij能够构成y∈fij的履历可视化装置。通过构成这样的履历可视化装置,能够构成用于表示日间变动的日间变动可视化装置、用于表示日内的变动的日内变动可视化装置,能够显示各种数据。
例如,通过得到这样的履历特性,能够如图3(b)所示那样提取出特异性随着时间变化的部分空间。因此,能够检测出不只是当前的发言、过去的某特定时刻的发言,还有发言的内容逐渐变化或突然变化那样的部分空间,能够将这样的个人也作为监视的对象。进而,还能够根据时刻的变化进行将来的预测,能够判断在将来是否应该进行监视。
平衡过滤器与“预定的履历条件”对应。包含在候选空间中的关联词与“履历文本数据”对应。
<<能够在线使用的审查系统>>
图10是表示能够在线使用的喜好可视化系统(审查系统)的概要的框图。
图10所示的关联词提取装置由上述的部分空间生成装置构成(参照图11)。该部分空间生成装置执行与上述同样的处理。即,通过基本过滤器根据个人的发言生成域ui,通过适合过滤器根据域ui生成部分空间eij
另外,关联词提取装置具有监视装置(参照图12)。监视装置根据包含在部分空间eij中的关联词和唯一ID(审查人),参照监视信息,从监视信息中取得应该监视的审查人(监视人)、发现了特异性的关联词(特异关联词)、与特异关联词相关的履历特性。监视装置向审查控制装置输出所取得的监视人、特异关联词、履历特性。此外,在向多个个人提供新产品的广告等信息的情况下,有时审查人并不是监视人。在这样的情况下,监视装置向审查控制装置输出审查人和关联词。
审查控制装置根据特异关联词、履历特性等监视信息,取得审查控制指令,输出到输出变换装置(参照图13)。作为审查控制指令,例如有无视(正常保证)、警告(安全)、统计输出(顾客服务)、推荐(广告)、教育(风险管理)、激励(护理)、娱乐信息(丰富精神)等。将审查控制指令存储在表中使得能够与特异关联词和履历特性对应地选择。
审查控制装置与这些审查控制指令的内容对应地向输出变换装置发送输出信息。在从输出变换装置输出了输出信息时,生成用于存储其内容、输出的日期时间、输出的唯一ID等的输出日志,存储在输出存储装置中。另外,输出变换装置参照存储在输出存储装置中的输出日志,判断是否输出输出信息。例如,在已经正在向某唯一ID所示的个人输出输出信息的情况下,中止输出信息的输出。
图11是能够在线使用的审查系统中的基本过滤器和适合过滤器,它执行与上述相同的处理。即,通过基本过滤器根据个人的发言生成域ui,通过适合过滤器根据域ui生成部分空间eij
<<审查控制指令>>
审查控制指令是作为审查的结果,用于向成为审查的对象的个人发出警告的信息,或发出激励的信息的指令。另外,审查控制指令是用于对个人使用的装置、系统进行控制的指令。通过这样发出审查控制指令,能够切断进行反社会发言、反常发言的个人所使用的装置、系统的通信线路。这样的审查控制指令与审查的结果对应地确定审查系统的运用者所希望的内容。
实施例1
图14表示将本发明应用于能够执行利用因特网等网络进行合同、结算等的电子商务交易(EC=Electronic commerce:电子商务)的主干系统的实施例。
电子商务交易一般大致分为3种,将企业之间的交易称为“B to B”(Business to Business:企业对企业)、将企业和消费者之间的交易称为“B to C”(Business to Consumer:企业对消费者),将消费者之间的交易称为“C to C”(Consumer to Consumer:消费者对消费者)。
在本实施例中,应用本发明的B to B的普通EC站点以主干系统为中心,通过因特网等网络与多个个人的终端连接,另外,与通过各个终端进行访问的个人的个人信息数据库连接。另外,从多个终端群得到各种输入信息,在上述主干系统的内部潜在地存在喜欢动画片、或对动画片有兴趣的动画片团体、宗教要素的输入信息多的宗教团体、或对食品发言多的美食团体等多个类型的团体,但这些团体一般没有对群进行可视化(无法作为群来提取,不存在提取的机制)。
进而,作为这样的EC站点之一,在本实施例中使得与经营美食检索站点(图14的“美食导航”)的主干系统协作。通过使本发明与EC站点协作,在作为该EC站点的美食检索站点中,某个人通过终端访问上述主干系统,与在从该主干系统下载的检索画面中输入的输入信息对应地,本发明的喜好可视化系统和审查系统(以下称为信息处理系统)还能够在上述终端侧执行交互的信息提供、通信切断等动作的处理。
例如,假设通过个人的上述终端,作为“聚会去吃咖喱饭?还是想吃好吃的意大利面、拉面”的文字输入的输入信息而向主干服务器发送。如果通过信息处理系统的输入接口输入了该输入信息,则通过输入变换装置,变换为在该信息处理系统中处理的一种数据形式(在本实施例的情况下,为文本信息)。作为输入信息,并不限于使用键盘、触摸屏等通过按键输入来进行文字输入的方式,本发明的输入信息还能够采用基于后述的声音识别的输入形式。
在此,本实施例的上述信息处理系统除了喜好可视化系统和审查系统以外,还由履历信息数据库(履历信息DB)、监视信息数据库(监视信息DB)、编辑各种过滤器的过滤器编辑控制部、编辑各种审查控制指令的指令编辑控制装置构成。
另外,在上述审查系统中,具备:输出变换装置,其以恰当的输出形式向上述的输入变换装置和外部输出审查控制指令;审查控制指令数据库(审查控制指令DB),其存储由上述指令编辑控制装置编辑后的各种指令;审查控制装置,其与从上述喜好可视化系统输出的监视信息对应地参照上述审查控制指令数据库,经由上述输出变换装置向上述主干系统输出;输出日志存储装置,其存储从上述输出变换装置输出的各种审查控制指令的输出日志。
进而,在喜好可视化系统中,包含关联词提取装置和监视信息提取装置、以及通过上述过滤器编辑控制部的输入对各种过滤器进行编辑的过滤器编辑装置。各装置的功能具有在上述的实施方式中说明的功能。另外,在该喜好可视化系统中,还具备:参照上述履历信息数据库进行履历可视化的部分;与来自上述关联词提取装置和监视信息提取装置的信息输出对应地,参照监视信息数据库,向上述审查控制装置输出监视信息的监视装置。
根据这样的上述信息处理系统,例如在输入了“聚会去吃咖喱饭?还是想吃好吃的意大利面、拉面”的输入信息的情况下,根据各个该输入信息生成如下这样的内部状态下的处理数据(参照图14)。
即,针对作为关联词的“聚会”的输入信息,在一个域是应该发出警报的NG词、“聚会”这样的关联词是该个人的ID进行的首次发言的情况下,作为履历确定作为新顾客而处理,作为用于进行审查控制的指令生成警报这样的处理数据。
另外,针对意大利面这样的关联词的输入信息,域是面类,根据该个人已经好几次发言,并且根据发言的内容,喜好是“喜欢”,另外参照履历信息而设为常客的履历特性,根据这些结果,指令为推荐意大利面。
进而,针对拉面这样的关联词的输入信息,域是面类,根据该个人已经好几次提到拉面,并且根据发言的内容,喜好是“喜欢”,由于很多次发言,因此成为常客的履历特性。
另外,如下这样生成作为上述内部状态的上述处理数据。如果从上述主干系统向本信息处理系统取得输入信息,则进行用于将该输入信息变更/统一为能够处理的文本等数据形式的处理,针对该数据,由上述关联词提取装置的审查空间生成装置和部分空间生成装置参照上述履历信息数据库,同时使用上述基本过滤器和适合过滤器进行处理,由此首先生成上述的审查场。
接着,上述监视信息提取装置的候选空间生成装置和监视空间生成装置参照监视信息数据库,同时使用上述那样的结构过滤器、平衡过滤器进行处理,由此经由监视装置向审查系统输出监视信息,由审查控制装置从审查控制指令数据库中提取出与该输出信息对应的指令,经由上述输出变换装置向上述终端提供结果,为此向主干系统发送指令。
“向上述终端提供结果”除了提供各种商务信息以外,还包括以下的动作等:在生成了上述NG词的域的情况下,在超过某规定的阈值地发言了NG词的情况下,强制地切断主干系统与发言了该NG词的个人的终端的通信线路。即,根据输出到主干系统的审查控制指令,执行符合顾客的喜好的个别的服务的提供、符合输入内容的风险状况的输出控制。如果是上述的美食检索站点,则依照审查控制指令,针对个人(顾客)控制美食检索,提供结果。
以上是实施例1,但本发明的信息处理系统的特征在于,具备以下功能:审查场生成功能,其针对经由主干系统得到的来自多个个人的终端的多种输入信息,执行多种过滤器处理来生成审查场;监视功能,其执行针对通过该审查场生成功能生成的审查场,对新从上述主干系统输入的输入信息进行可视化的可视化功能,并且为了通过得到输入信息的终端执行审查控制指令,而向上述主干系统输出作为上述执行的结果而预先准备的审查控制指令的一个。
实施例2
图15表示在实施例1中将本发明应用于EC站点的例子,但在本实施例2中,表示使提供进行顾客支持的人工智能服务的主干系统和本发明协作的例子。本实施例2中的信息处理系统的基本结构与在实施例1中说明的一样,与实施例1不同的是:协作的主干系统不同;由于协作的主干系统不同所以输入的输入信息不同,因此各过滤器也不同,结果是向主干系统输出的审查控制的指令不同。
更具体地说,在本实施例2中,是提供进行顾客支持的人工智能服务的主干系统,因此输入到上述主干系统的输入信息例如考虑“Caiwa(商品名)的咨询,请指教导入方法”。在该情况下,为了输出审查控制指令而进行数据处理的结果的内部的状态如图15所示,针对“Caiwa”的关联词,“Caiwa”是商品名,因此域为“商品”,根据其个人ID、商品这样的域和履历信息而设为“重要顾客”,根据输入信息内的“咨询”这样的发言,喜好是“咨询”,根据该结果而向主干系统输出的审查控制指令被存储为重要顾客、商品、咨询。另外,针对“导入”这样的关联词,域为“商业”、喜好根据“请指教”这样的发言而为“咨询”,履历特性参照履历信息而作为“新顾客”来处理,审查控制指令,根据新加入者、商业、咨询的结果,向主干系统输出输出指令。
实施例3
图16表示在实施例1中将本发明应用于EC站点的主干系统的例子,在实施例2中表示应用于负责人工智能中的顾客支持的主干系统的例子,但在本实施例3中,表示将本发明应用于负责机器人的声音控制服务的主干系统的例子。本实施例中的信息处理系统的基本结构与在实施例1和2中说明的一样,与实施例1和实施例2不同的是:协作的主干系统不同;由于协作的主干系统不同所以输入的输入信息不同,因此各过滤器也不同,其结果是向主干系统输出的审查控制的指令不同。另外,在以下的方面不同:上述实施例1和2中的来自终端的输入形式主要是键盘等输入形式,但在本实施例3中通过声音输入来进行输入,以及将声音的特征量置换为文本数据来灵活运用。
另外,由于是声音输入,所以准备上述的过滤器使得音量的强弱等特征量也对输入的声音产生影响,根据声音的大小生成与感情对应的域。
即,假设在主干系统向终端侧的监视器显示了催促发言的指导画面“请说话”后,例如向与终端连接的麦克风以预定阈值以上的音量大声地进行了“傻瓜!”的声音输入。当然,上述指导画面除了web画面以外,也可以是通过机器人用声音双向会话的方式。
该情况下的声音输入是超过某阈值的音量,因此成为“大声”这样的关联词,域是“音量”,喜好是“愤怒”,参照过去的履历为“问题顾客”这样的履历属性,根据这些结果,审查控制指令成为问题顾客、大声、愤怒。另外,通过句长这样的过滤器,声音输入为“傻瓜”是短的,因此关联词为“短句”,域为“句长”,根据过去的履历而履历特性为“一般顾客”,根据该结果得到的审查控制指令为一般顾客、短句、愤怒。
这样,不只是对声音输入的声音进行文本识别而与实施例1、2同样地通过过滤器对发言的含义进行处理,在声音输入的情况下,还能够根据其音量、句长等执行感情分析。即,作为向主干系统的审查控制指令,在个人愤怒的情况下,可以输出低姿态回答那样的审查控制指令,或者在多次进行相同的对应的问题顾客的情况下,可以输出用于除了对愤怒的对应以外还作为问题顾客来对应的审查控制指令。因此,通过依照审查控制指令来对应,从而对谁都能够更容易地进行问题解决。
<<其他形式>>
进而,根据本发明,着眼于在主干系统的使用者形成的审查场中大多甚至不作为地搁置的个别的喜好信息,确立作为审查场的特性而对其表现内容进行整理的方法,由此还能够提供一种能够与主干系统的个别服务关联起来的审查系统或审查功能。
另外,根据本发明,在对来自使用者的咨询进行回答的人工智能系统中,通过将人工智能系统和上述审查系统或审查功能关联起来,还能够提供反映存在于审查场中的喜好信息来回答咨询的人工智能系统。
本发明的其他形式的信息处理系统可以具备:
审查场生成单元,其将由参加主干系统的许多个人生成的个人生成数据分解为能够识别含义的多个分解数据,针对上述分解数据分别表示的对象,提取出满足针对每个团体附加特征的预定的关联条件和针对每个团体附加特征的预定的特征条件的数据,将提取出的第一提取数据的集合生成为审查场;
可视化单元,其从上述第一提取数据的集合中,提取出对于上述对象满足表示针对每个团体附加特征的预定的特异性的特异条件的数据,从提取出的第二提取数据中检测出上述预定的特异性并进行可视化。
进而,在上述的“将由个人生成的个人生成数据分解为能够识别含义的多个分解数据,针对上述分解数据分别表示的对象提取出满足针对每个团体附加特征的预定的关联条件和针对每个团体附加特征的预定的特征条件的数据”中,如在上述的本发明的实施方式中说明的那样,作为能够识别含义的数据,采用文本数据作为基础的数据形式。但是,在将来出现了能够改变为文本数据的含义可识别的其他数据形式的情况下,也能够将这些数据形式应用于本发明。
这样,本发明并不限于文本数据,但在采用了文本数据的情况下,如下。即,本发明的其他形式的信息处理系统可以具备:
审查场生成单元,其将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,从上述分解文本数据中提取出针对上述分解文本数据所表示的对象满足针对每个团体附加特征的预定的关联条件和针对每个团体附加特征的预定的特征条件的数据,将提取出的第一提取数据的集合生成为审查场;
可视化单元,其从上述第一提取数据的集合中,提取出对于上述对象满足表示对每个团体附加特征的预定的特异性的特异条件的数据,从提取出的第二提取数据中检测出上述预定的特异性并进行可视化;
监视单元,其根据上述第二提取数据,决定应该监视的个人和进行监视的控制的监视内容。
符号说明
10:网络;
20:服务器;
100:监视系统、审查系统、喜好可视化系统。

Claims (13)

1.一种喜好可视化方法,其特征在于,包括:
从基于由个人生成的个人生成数据的文本数据中抽离包含预定的内容的数据,将进行了抽离的文本数据分解为能够识别含义的分解文本数据的步骤;
生成与所述分解文本数据所示的对象的履历有关的履历信息,提取出所述分解文本数据中的、针对上述履历信息满足预定的履历条件的履历文本数据的步骤;以及
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的、针对上述参照数满足预定的参照条件的文本数据的步骤,
其中,根据所述履历信息能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。
2.根据权利要求1所述的喜好可视化方法,其特征在于,还包括:
将上述分解文本数据与能够识别生成了个人生成数据的个人的用户ID关联地存储的步骤。
3.一种喜好可视化方法,其特征在于,包括:
将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,提取出上述分解文本数据中的、表示针对上述分解文本数据所示的对象而满足预定的关联条件的关联对象的关联文本数据的步骤;
生成与所述关联文本数据所示的对象的履历有关的履历信息,提取出所述关联文本数据中的、针对上述履历信息满足预定的履历条件的履历文本数据的步骤;以及
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的、针对上述参照数满足预定的参照条件的文本数据的步骤,
其中,根据所述履历信息能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。
4.根据权利要求3所述的喜好可视化方法,其特征在于,还包括:
将上述关联文本数据与上述预定的关联条件关联地存储的步骤。
5.根据权利要求1或3所述的喜好可视化方法,其特征在于,还包括:
提取出基于由个人生成的个人生成数据的文本数据中的、针对文本数据所示的对象的属性而满足预定的特征条件的特征文本数据的步骤;以及
将上述特征文本数据与上述预定的特征条件关联地存储的步骤。
6.根据权利要求1或3所述的喜好可视化方法,其特征在于,还包括:
提取出基于由个人生成的个人生成数据的文本数据中的、关于文本数据所示的对象而满足表示预定的特异性的特异条件的文本数据的步骤。
7.一种喜好可视化方法,其特征在于,包括:
将基于由个人生成的个人生成数据的文本数据分解为能够识别含义的分解文本数据,提取出上述分解文本数据中的、表示针对上述分解文本数据所示的对象满足预定的关联条件的关联对象的关联文本数据的步骤;
提取出上述关联文本数据中的、针对文本数据所示的对象的属性而满足预定的特征条件的特征文本数据的步骤;
生成与所述特征文本数据所示的对象的履历有关的履历信息,提取出所述特征文本数据中的、针对上述履历信息满足预定的履历条件的履历文本数据的步骤;以及
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的、针对上述参照数满足预定的参照条件的文本数据的步骤,
提取出关于特征文本数据所示的对象满足表示预定的特异性的特异条件的特异文本数据的步骤,
其中,根据所述履历信息能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。
8.根据权利要求7所述的喜好可视化方法,其特征在于,还包括:
将上述关联文本数据与上述预定的关联条件关联地存储的步骤。
9.一种喜好可视化方法,其特征在于,包括:
生成与基于由个人生成的个人生成数据的文本数据所示的对象的履历有关的履历信息,提取出基于上述个人生成数据的文本数据中的、针对上述履历信息满足预定的履历条件的履历文本数据的步骤;
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的、针对上述参照数满足预定的参照条件的文本数据的步骤,
其中,根据所述履历信息能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。
10.根据权利要求9所述的喜好可视化方法,其特征在于,还包括:
根据上述履历文本数据生成监视信息的步骤。
11.一种采用权利要求1-10中的任意一项所述的喜好可视化方法实现的信息处理系统。
12.一种计算机系统,具备通过输入接口接收包含由多个字符串构成的文本数据的一个外部信息并执行用于提取该内容的特异信息的程序的计算机,该计算机系统采用权利要求1-10中的任意一项所述的喜好可视化方法。
13.一种审查方法,其特征在于,包括:
生成与基于由个人生成的个人生成数据的文本数据所示的对象的履历有关的履历信息,提取出基于上述个人生成数据的文本数据中的、针对上述履历信息满足预定的履历条件的履历文本数据的步骤;
与能够识别生成了个人生成数据的个人的用户ID关联地生成参照了基于上述个人生成数据的文本数据的参照数,提取出基于上述个人生成数据的文本数据中的、针对上述参照数满足预定的参照条件的文本数据的步骤;
根据上述履历文本数据生成监视信息的步骤;以及
根据上述监视信息生成审查控制指令的步骤,
其中,根据所述履历信息能够得到生成了个人生成数据的个人在过去生成了与对象有关的信息的次数、频度、出现率。
CN201280016719.3A 2011-04-08 2012-04-03 喜好可视化系统和审查系统 Active CN103635898B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-086407 2011-04-08
JP2011086407A JP5872183B2 (ja) 2011-04-08 2011-04-08 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法
PCT/JP2012/059093 WO2012137782A1 (ja) 2011-04-08 2012-04-03 嗜好可視化システム及び検閲システム

Publications (2)

Publication Number Publication Date
CN103635898A CN103635898A (zh) 2014-03-12
CN103635898B true CN103635898B (zh) 2016-08-10

Family

ID=46969178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280016719.3A Active CN103635898B (zh) 2011-04-08 2012-04-03 喜好可视化系统和审查系统

Country Status (4)

Country Link
US (2) US10055487B2 (zh)
JP (1) JP5872183B2 (zh)
CN (1) CN103635898B (zh)
WO (1) WO2012137782A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577510A (zh) * 2012-07-23 2014-02-12 阿里巴巴集团控股有限公司 搜索结果数据的展现方法,搜索服务器及移动终端
JP5958237B2 (ja) * 2012-09-25 2016-07-27 富士通株式会社 熱流体シミュレーション方法及び熱流体シミュレーション装置
US8909656B2 (en) * 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
CN104809229B (zh) * 2015-05-07 2018-12-04 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
JP7104277B2 (ja) * 2019-03-29 2022-07-21 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
CN113033577B (zh) * 2021-03-26 2022-06-03 山东科技大学 一种基于伴方差修正模型的海洋目标特征提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006236379A (ja) * 2006-04-26 2006-09-07 Nec Corp 情報分類装置
US7546310B2 (en) * 2004-11-19 2009-06-09 International Business Machines Corporation Expression detecting system, an expression detecting method and a program
CN101470754A (zh) * 2007-12-27 2009-07-01 国际商业机器公司 社区服务器系统和用于社区服务器系统的活动记录方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183306B2 (en) * 1998-12-18 2015-11-10 Microsoft Technology Licensing, Llc Automated selection of appropriate information based on a computer user's context
US6976070B1 (en) * 1999-02-16 2005-12-13 Kdd Corporation Method and apparatus for automatic information filtering using URL hierarchical structure and automatic word weight learning
JP2001028006A (ja) 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
JP4423004B2 (ja) * 2003-10-03 2010-03-03 三菱電機株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP4479366B2 (ja) * 2004-06-14 2010-06-09 ソニー株式会社 番組情報処理システム,番組情報管理サーバ,番組情報利用端末およびコンピュータプログラム。
US7549119B2 (en) * 2004-11-18 2009-06-16 Neopets, Inc. Method and system for filtering website content
US7783622B1 (en) * 2006-07-21 2010-08-24 Aol Inc. Identification of electronic content significant to a user
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US8024280B2 (en) * 2006-12-21 2011-09-20 Yahoo! Inc. Academic filter
US8763087B2 (en) * 2008-10-09 2014-06-24 Yahoo! Inc. System and method for content access control
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US20110119130A1 (en) * 2009-07-10 2011-05-19 Agan Thomas E Methods, systems, and apparatus to manage meal planning and coupon dispensing
CA3149767A1 (en) * 2009-07-16 2011-01-20 Bluefin Labs, Inc. Estimating and displaying social interest in time-based media
US20110087737A1 (en) * 2009-10-14 2011-04-14 Cbs Interactive, Inc. Systems and methods for living user reviews
US8688691B2 (en) * 2011-01-13 2014-04-01 International Business Machines Corporation Relevancy ranking of search results in a network based upon a user's computer-related activities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7546310B2 (en) * 2004-11-19 2009-06-09 International Business Machines Corporation Expression detecting system, an expression detecting method and a program
JP2006236379A (ja) * 2006-04-26 2006-09-07 Nec Corp 情報分類装置
CN101470754A (zh) * 2007-12-27 2009-07-01 国际商业机器公司 社区服务器系统和用于社区服务器系统的活动记录方法
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法

Also Published As

Publication number Publication date
JP2012221222A (ja) 2012-11-12
US20140019464A1 (en) 2014-01-16
CN103635898A (zh) 2014-03-12
US10055487B2 (en) 2018-08-21
WO2012137782A1 (ja) 2012-10-11
JP5872183B2 (ja) 2016-03-01
US20190012376A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
Mariani et al. Artificial intelligence empowered conversational agents: A systematic literature review and research agenda
Kontopoulos et al. Ontology-based sentiment analysis of twitter posts
Guellil et al. Social big data mining: A survey focused on opinion mining and sentiments analysis
CN103635898B (zh) 喜好可视化系统和审查系统
Choudrie et al. Applying and understanding an advanced, novel deep learning approach: A Covid 19, text based, emotions analysis study
Cvijikj et al. Understanding social media marketing: a case study on topics, categories and sentiment on a Facebook brand page
Tse et al. Insight from the horsemeat scandal: Exploring the consumers’ opinion of tweets toward Tesco
US20090248735A1 (en) Suggesting concept-based top-level domain names
US20090248734A1 (en) Suggesting concept-based domain names
Breitfuss et al. Representing emotions with knowledge graphs for movie recommendations
JP4796664B1 (ja) 感性分析システム及びプログラム
Sheth et al. Semantic filtering for social data
Krommyda et al. Emotion detection in Twitter posts: a rule-based algorithm for annotated data acquisition
Elbaghazaoui et al. Data profiling and machine learning to identify influencers from social media platforms
Moreno-Ortiz et al. The language of happiness in self-reported descriptions of happy moments: Words, concepts, and entities
Harguem et al. Machine Learning Based Prediction of Stock Exchange on NASDAQ 100: A Twitter Mining Approach
KR20110052114A (ko) 인터넷을 활용한 추천 검색 시스템 및 그 방법
Niyogi et al. Discovering conversational topics and emotions associated with demonetization tweets in India
JP2012256283A (ja) 感性分析システム及びプログラム
Hagge et al. Design and implementation of a toolkit for the aspect-based sentiment analysis of tweets
Han et al. Developing smart service concepts: morphological analysis using a Novelty-Quality map
Ali et al. CLOE: a cross-lingual ontology enrichment using multi-agent architecture
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Mangnoesing et al. An empirical study for determining relevant features for sentiment summarization of online conversational documents
Timm et al. Dynamic analysis of communication processes using twitter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant