CN112445388A - 数据处理装置和数据处理方法 - Google Patents

数据处理装置和数据处理方法 Download PDF

Info

Publication number
CN112445388A
CN112445388A CN202010870063.8A CN202010870063A CN112445388A CN 112445388 A CN112445388 A CN 112445388A CN 202010870063 A CN202010870063 A CN 202010870063A CN 112445388 A CN112445388 A CN 112445388A
Authority
CN
China
Prior art keywords
information
data
displayed
text
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010870063.8A
Other languages
English (en)
Inventor
坂本大辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN112445388A publication Critical patent/CN112445388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供数据处理装置和数据处理方法,能够提高生成数据库时的生成效率和数据库的有用性。数据处理装置(1)以规定的取得条件从由规定媒体公开的信息取得多个文本信息(步骤1),在由用户指定了显示器(1a)所显示的多个文本信息中的至少一部分作为排除关键字时,生成去除了包含排除关键字的文本信息后的噪声去除完成信息(步骤2),对噪声去除完成信息实施规定处理,从而生成数据库(步骤3~4)。

Description

数据处理装置和数据处理方法
技术领域
本发明涉及执行数据库的生成等的数据处理装置等。
背景技术
以往,作为数据处理装置,已知有日本特开2011-48527号公报中记载的数据处理装置。在该数据处理装置中,从日语的文本信息中提取感性表达,使用已生成的感性表达数据库将感性信息和侧面信息与检索对象关联起来,从而生成检索对象数据库。
接着,当用户输入了作为检索条件的感性表达时,从感性表达数据库中取得与该感性表达对应的感性信息和侧面信息,根据侧面信息从检索对象数据库中检索感性信息,计算从检索对象数据库中检索到的感性信息与从感性表达数据库中取得的感性信息之间的距离。然后,按照距离从近到远的顺序,画面上排列显示检索对象ID等各种信息。
发明内容
根据上述日本特开2011-48527号公报的数据处理装置,只不过是根据日语的文本信息而生成检索对象数据库,由于数据收集范围被制约,因此存在检索对象数据库的有用性低的问题。除此以外,由于没有考虑无利用价值的不需要的信息即噪声,因此可能在包含噪声的状态下生成检索对象数据库,该情况下,检索对象数据库的生成效率降低,并且其有用性进一步降低。
本发明是为了解决上述课题而完成的,其目的在于,提供能够提高生成数据库时的生成效率和数据库的有用性的数据处理装置等。
用于解决问题的手段
为了达成上述目的,第1方面的数据处理装置的特征在于,具备:输出接口;输入接口,其由用户进行操作;文本信息取得部,其以规定的取得条件从由规定媒体公开的信息中取得多个文本信息;文本信息显示部,其将多个文本信息显示于输出接口;噪声去除完成信息生成部,其在通过用户对输入接口的操作而将显示于输出接口的多个文本信息的各个文本信息中的至少一部分指定为噪声时,生成噪声去除完成信息,该噪声去除完成信息是从多个文本信息中去除了包含被指定为噪声的部分在内的文本信息后得到的文本信息;以及数据库生成部,其对该噪声去除完成信息实施规定处理,从而生成数据库。
根据该数据处理装置,以规定的取得条件从由规定媒体公开的信息中取得多个第1文本信息,将多个文本信息显示于输出接口。然后,当通过用户对输入接口的操作将输出接口中显示的多个文本信息中的各文本信息中的至少一部分指定为噪声时,生成噪声去除完成信息,该噪声去除完成信息是从多个文本信息中去除包含被指定为噪声的部分在内的文本信息后得到的文本信息。这样,仅通过用户对输入接口的操作来选择噪声,就能够从多个文本信息容易且适当地去除包含被用户看作噪声的数据的文本信息,能够生成噪声去除完成信息作为其除去结果。
进而,通过对这样生成的噪声去除完成信息实施规定处理来生成数据库,因此,能够在排除了用户视为噪声的文本信息的状态下生成数据库。由此,能够提高生成数据库时的生成效率和有用性。
第2方面的发明在第1方面所记载的数据处理装置中,其特征在于,还具备:噪声存储部,其存储噪声;以及噪声显示部,其在通过用户对输入接口的操作而执行了噪声的显示操作时,将噪声存储部中存储的噪声显示于输出接口。
根据该数据处理装置,当通过用户对输入接口的操作而执行了噪声的显示操作时,将噪声存储部中存储的噪声显示于输出接口,因此,用户能够目视确认用户自己目前为止选择的噪声。由此,能够提高便利性。
第3方面的发明在第1方面或第2方面所记载的数据处理装置中,其特征在于,文本信息取得部从由规定媒体公开的信息中提取感性信息,并且,作为将感性信息与由规定媒体公开的信息关联起来的信息而取得多个文本信息,数据处理装置还具备噪声去除完成信息显示部,该噪声去除完成信息显示部将噪声去除完成信息和与噪声去除完成信息关联的感性信息一起显示于输出接口,数据库生成部的规定处理包含通过用户对输入接口的操作而执行的感性信息修正处理,在该感性信息修正处理中,对显示于输出接口的1个以上的噪声去除完成信息中的感性信息进行修正。
根据该数据处理装置,从由规定媒体公开的信息中提取感性信息,并且,作为将感性信息与由规定媒体公开的信息关联起来的信息而取得多个文本信息,将噪声去除完成信息与感性信息一起显示于输出接口。而且,在生成数据库时,通过用户对输入接口的操作而执行感性信息修正处理,在该感性信息修正处理中,对显示于输出接口的噪声去除完成信息中的感性信息进行修正,因此,用户能够在目视确认噪声去除完成信息中的感性信息的同时容易地对其进行修正。由此,能够进一步提高生成数据库时的生成效率和有用性。
第4方面的发明在第1~3方面中的任意一个方面所记载的数据处理装置中,其特征在于,还具备标签信息存储部,该标签信息存储部存储由用户定义的标签信息,数据库生成部的规定处理包含关联处理,在该关联处理中,将标签信息存储部中存储的标签信息与噪声去除完成信息关联起来。
根据该数据处理装置,在生成数据库时,执行将标签信息存储部中存储的标签信息与噪声去除完成信息关联的关联处理,因此,能够根据标签信息来执行数据库的检索等,能够进一步提高数据库的有用性。
第5方面的发明在第1~4方面中的任意一个方面所记载的数据处理装置中,其特征在于,文本信息显示部将根据多个文本信息所包含的信息的意思对多个文本信息进行划分时的包含相同信息、或相同和近似的信息在内的文本信息的集合,按照集合的从大到小的顺序显示于输出接口。
根据该数据处理装置,根据多个文本信息所包含的信息的意思对多个文本信息进行划分时的包含相同的信息或相同和近似的信息在内的文本信息的集合按照集合的从大到小的顺序被显示于输出接口,因此,用户能够从文本信息的集合大的一方起依次指定噪声。由此,能够从多个文本信息中高效地去除包含噪声的文本信息。由此,能够进一步提高生成数据库时的生成效率。
第6方面的发明在第3方面所记载的数据处理装置中,其特征在于,数据库生成部在将感性信息划分为多个分类的状态下生成数据库,数据处理装置具备感性信息显示部,该感性信息显示部以彼此不同的色彩将数据库中包含的多个分类的感性信息显示于输出接口。
根据该数据处理装置,将数据库中包含的多个分类的感性信息以彼此不同的色彩显示于输出接口,因此,用户能够容易地区分并目视确认多个分类的感性信息。
第7方面的发明在第1~6方面中的任意一个方面所记载的数据处理装置中,其特征在于,规定的取得条件是如下的条件:由规定媒体公开的信息包含规定信息,并且不包含可能与规定信息混同的规定的混同信息。
根据该数据处理装置,以由规定媒体公开的信息包含规定信息、并且不包含可能与规定信息混同的规定的混同信息这样的条件,从由规定媒体公开的信息取得多个文本信息,因此,能够取得多个文本信息作为高精度地包含规定信息的信息。由此,能够更进一步提高生成数据库时的生成效率。
为了达成上述的目的,第8方面的数据处理方法的特征在于,包含如下步骤:以规定的取得条件从由规定媒体公开的信息中取得多个文本信息;将多个文本信息显示于输出接口;在通过用户对输入接口的操作而将显示于输出接口的多个文本信息中的各个文本信息中的至少一部分指定为噪声时,生成噪声去除完成信息,该噪声去除完成信息是从多个文本信息中去除了包含被指定为噪声的部分在内的文本信息后得到的1个以上的文本信息;以及对噪声去除完成信息实施规定处理,从而生成数据库。
附图说明
图1是示出本发明的一个实施方式的数据处理装置等的结构的图。
图2是示出数据库生成处理的流程图。
图3是示出数据取得处理的流程图。
图4是示出数据清理处理的流程图。
图5是示出感性信息修正处理流程图。
图6是示出赋予用户定义标签处理的流程图。
图7是示出数据可视化处理的流程图。
图8是示出数据取得处理中的媒体选择画面的图。
图9是示出期间输入画面的图。
图10是示出语言选择画面的图。
图11是示出关键字输入画面的图。
图12是示出附加信息选择画面的图。
图13是示出数据取得处理中的最终确认画面的图。
图14是示出数据清理处理中的数据选择画面的图。
图15是示出清理关键字画面的图。
图16是示出图15的画面中选择了排除关键字的状态的图。
图17是示出图15的画面中显示了输入窗和显示窗的状态的图。
图18是示出数据清理处理中的最终确认画面的图。
图19是示出感性信息修正处理中的数据选择画面的图。
图20是示出感性修正画面的图。
图21是示出图20的画面中显示了下拉菜单的状态的图。
图22是示出感性信息修正处理中的最终确认画面的图。
图23是示出赋予用户定义标签处理中的数据选择画面的图。
图24是示出用户定义标签选择画面的图。
图25是示出用户定义标签画面的图。
图26是示出数据可视化处理中的数据选择画面的图。
图27是示出初始显示画面的图。
图28是示出小分类“询问”的关联画面的图。
图29是示出小分类“CUB”的关联画面的图。
具体实施方式
以下,参照附图对本发明的一个实施方式的数据处理装置进行说明。图1示出应用了本实施方式的数据处理装置1的数据处理系统5,在该数据处理系统5中设有多个数据处理装置1(仅图示2个)和主服务器2。
主服务器2具备储存器(storage)、处理器、存储器(RAM、E2PROM、ROM等)和I/O接口等。在该主服务器2上经由网络3(例如互联网)而连接有大量的外部服务器4(仅图示3个)。
该情况下,各种SNS服务器、规定媒体(例如,报社)的服务器和检索网站的服务器等相当于外部服务器4。如后所述,数据处理装置1经由主服务器2从这些外部服务器4取得文本数据(文本信息)。
此外,数据处理装置1是计算机类型的设备,具备显示器1a、装置主体1b和输入接口1c等。装置主体1b具备HDD等储存器、处理器和存储器(RAM、E2PROM、ROM等)等(均未图示),在该装置主体1b的储存器中,安装有用于取得数据的应用软件(以下称作“数据取得软件”)。
此外,输入接口1c由用于操作数据处理装置1的键盘和鼠标等构成。另外,在本实施方式中,显示器1a相当于输出接口,装置主体1b相当于文本信息取得部、文本信息显示部、噪声去除完成信息生成部、数据库生成部、噪声存储部、噪声显示部、噪声去除完成信息显示部、标签信息存储部和感性信息显示部。
如下所述,在该数据处理装置1中执行数据库生成处理。具体而言,当通过用户对输入接口1c的操作而起动了数据取得软件时,将后述图8等所示那样的画面作为GUI(图形用户接口)而显示于显示器1a。
在该GUI的情况下,数据取得按钮10、数据清理按钮20、感性修正按钮30、赋予标签按钮40和可视化按钮50在显示器1a的左侧的位置显示为纵向一列。而且,用户经由输入接口1c执行这些按钮的按下操作等,由此,如下所述,执行数据库生成处理。另外,在以下的说明中,将用户对输入接口1cfj进行操作称作“用户操作”。
接着,参照图2对上述的数据库生成处理进行说明。如下所述,在该数据库生成处理中,在数据取得软件的起动中,从外部服务器4取得文本信息而生成数据库,并且显示该生成结果,在数据处理装置1,以规定的控制周期来执行该数据库生成处理。
另外,设为在该数据库生成处理的执行中取得或生成的数据全部都被存储于数据处理装置1的装置主体1b的储存器。此外,也可以构成为将这些数据存储于装置主体1b的存储器、外接于装置主体1b的储存器、或主服务器2。
如图2所示,在该数据库生成处理中,首先执行数据取得处理(图2/步骤1)。该处理用于从外部服务器4取得文本数据,后面叙述其详细内容。
接着,执行数据清理处理(图2/步骤2)。该处理用于读出装置主体1b的储存器内的文本数据,去除所读出的文本数据中包含的不需要的数据,并对文本数据进行整理,后面叙述其详细内容。
接着,执行感性信息修正处理(图2/步骤3)。该处理用于读出装置主体1b的储存器内的文本数据,并对所读出的文本数据中的感性信息进行修正,后面叙述其详细内容。
接着该感性信息修正处理,执行赋予用户定义标签处理(图2/步骤4)。该处理用于读出装置主体1b的储存器内的文本数据,并对所读出的文本数据附加用户定义的标签,后面叙述其详细内容。
接着,执行数据可视化处理(图2/步骤5)。该处理用于可视化地显示执行以上的各处理而生成的数据库,后面叙述其详细内容。如以上那样,在执行了数据可视化处理后,结束本处理。
接着,参照图3对前述的数据取得处理的内容进行说明。在该处理中,如该图所示,首先,判定是否通过用户操作而按下了前述的数据取得按钮10(图3/步骤10)。当该判定为否定(图3/步骤10…否)时,直接结束本处理。
另一方面,当该判定为肯定(图3/步骤10…是),数据取得按钮10被按下时,执行媒体选择处理(图3/步骤11)。在该媒体选择处理中,将图8所示那样的媒体选择画面显示于显示器1a。
在该媒体选择画面中,如上述那样数据取得按钮10被按下的情况下,为了对其进行表示,以粗线显示数据取得按钮10的外框,并且,以网线状态显示数据取得按钮10的内部。
在该媒体选择画面的上侧,以从左到右的顺序显示媒体选择图标11、期间输入图标12、语言选择图标13、关键字输入图标14、附加信息选择图标15和最终确认图标16。此外,在媒体选择画面的右下侧,显示下一步(Next)按钮17。
在媒体选择处理的执行中,为了对其进行表示,将媒体选择图标11反转显示,并且在其下侧显示“Select Media”(选择媒体)的字符。在图8中,媒体选择图标11被反转显示的状态不是以涂黑显示,而是以阴影线显示,这一点在后述的图9~13中的各种图标12~16中是同样的。
进而,在媒体选择处理的执行中,在媒体选择画面的中央部显示用于选择媒体的多个复选框。在图8所示的例中,作为多个复选框而显示有6个复选框11a~11f。
该情况下,复选框11a~11c分别用于选择“TWITTER(注册商标)”、“FACEBOOK(注册商标)”和“YOUTUBE(注册商标)”作为媒体,复选框11d~11f用于分别选择其他3个媒体。
在这样显示有复选框11a~11f的状态下,当通过用户操作而选择了任意的媒体时,为了对其进行表示,在与所选择的媒体对应的复选框内显示勾选,同时将复选框反转显示。在图8所示的例中,显示选择了TWITTER(注册商标)作为媒体的状态。如以上那样执行媒体选择处理。
接着,判定媒体选择处理是否已经结束(图3/步骤12)。该情况下,在复选框11a~11f中的至少1个被选择了的状态下,当通过用户操作而按下了下一步按钮17时,判定为媒体选择处理已经结束,在这以外的情况下,判定为媒体选择处理未结束。
当该判定为否定(图3/步骤12…否)时,返回上述的媒体选择处理。另一方面,当该判定为肯定(图3/步骤12…是),媒体选择处理已经结束时,执行期间输入处理(图3/步骤13)。
该期间输入处理用于输入从上述那样选择的媒体中取得文本数据的期间,在期间输入处理的执行中,将图9所示的期间输入画面显示于显示器1a。
在该期间输入画面中,在期间输入处理的执行中,为对其进行表示,将期间输入图标12反转显示。此外,在期间输入画面的中央部,显示用于输入数据取得期间的起点即检索开始日的输入栏12a、以及用于输入数据取得期间的终点即检索结束日的输入栏12b。
进而,在期间输入画面的左下侧显示后退(Back)按钮18。该后退按钮18用于返回期间输入处理之前的处理(即媒体选择处理)的画面,这一点在后述的各种处理的画面中也是同样的。在该期间输入处理中,通过用户操作在输入栏12a、12b中输入检索开始日和检索结束日。如以上那样执行期间输入处理。
接着,判定期间输入处理是否已经结束(图3/步骤14)。该情况下,在检索开始日和检索结束日被输入于输入栏12a、12b的状态下,当通过用户操作而按下了下一步按钮17时,判定为期间输入处理已经结束,在这以外的情况下,判定为期间输入处理未结束。
当该判定为否定(图3/步骤14…否)时,返回上述的期间输入处理。另一方面,当该判定为肯定(图3/步骤14…是),期间输入处理已经结束时,执行语言选择处理(图3/步骤15)。
该语言选择处理用于选择如上述那样从所选择的媒体中取得文本数据时的语言,在语言选择处理的执行中,将图10所示的语言选择画面显示于显示器1a。在该语言选择画面中,在语言选择处理的执行中,为了对其进行表示,将语言选择图标13反转显示,并且在其下侧显示“Select Language”(选择语言)的字符。
此外,在语言选择画面的靠左的部分上下排列显示3个复选框13a~13c。复选框13a用于选择日语和英语双方作为取得文本数据时的语言,为了对其进行表示,在复选框13a的右侧显示“日·英”的字符。
此外,复选框13b用于选择日语作为取得文本数据时的语言,为了对其进行表示,在复选框13b的右侧显示“日语”的字符。并且,复选框13c用于选择英语作为取得文本数据时的语言,为了对其进行表示,在复选框13c的右侧显示“英语”的字符。
在这样显示有复选框13a~13c的状态下,当通过用户操作而选择了任意的语言时,为了对其进行表示,在与所选择的媒体对应的复选框内显示勾选,同时将复选框反转显示。在图10所示的例中,显示有选择了日语作为取得文本数据时的语言的状态。如以上那样,执行语言选择处理。
接着,判定语言选择处理是否已经结束(图3/步骤16)。该情况下,当在复选框13a~13c中的任意一方显示有勾选的状态下,通过用户操作而按下了下一步按钮17时,判定为语言选择处理已经结束,在这以外的情况下,判定为语言选择处理未结束。
当该判定为否定(图3/步骤16…否)时,返回上述的语言选择处理。另一方面,当该判定为肯定(图3/步骤16…是),语言选择处理已经结束时,执行关键字输入处理(图3/步骤17)。
该关键字输入处理用于输入在从外部服务器4取得文本数据时希望检索的关键字和希望排除的关键字,在关键字输入处理的执行中,将图11所示的关键字输入画面显示于显示器1a。
在该关键字输入画面中,在关键字输入处理的执行中,为了对其进行表示,将关键字输入图标14反转显示,并且在该关键字输入图标14的下侧显示“Keyword Definition”(关键字定义)的字符。
此外,在关键字输入画面的中央部显示有2个输入栏14a、14b和追加按钮14c。该输入栏14a用于输入检索关键字,为了对其进行表示,在输入栏14a的上侧显示“检索关键字”的字符。并且,追加按钮14c用于追加输入栏14a。
此外,输入栏14b用于输入排除关键字,为了对其进行表示,在输入栏14b的上侧显示“排除关键字”的字符。使用该排除关键字的理由如下。
即,在从外部服务器4取得文本数据时,在虽然与检索关键字无关、但与检索关键字同等或类似的关键字包含于外部服务器4内的文本数据的情况下,将这样的文本数据与原本的文本数据混同而取得的可能性高。因此,使用排除关键字以避免取得这样的不需要的文本数据。
在该关键字输入处理中,在显示有关键字输入画面的状态下,通过用户操作来输入检索关键字和排除关键字。图11示出如下例子:输入了本田(日语为“ホンダ”)和Honda(注册商标)作为检索关键字,输入了圭佑(日语为“ケイスケ”)和Keisuke作为排除关键字。该例的情况下,取得(检索)包含本田和Honda中的至少一方的文本数据,并且中止取得包含圭佑和Keisuke中的一方的文本数据。如以上那样,执行关键字输入处理。
接着,判定关键字输入处理是否已经结束(图3/步骤18)。该情况下,当在关键字被输入于2个输入栏14a、14b的状态下,通过用户操作而按下了下一步按钮17时,判定为关键字输入处理已经结束,在这以外的情况下,判定为关键字输入处理未结束。
当该判定为否定(图3/步骤18…否)时,返回上述的关键字输入处理。另一方面,当该判定为肯定(图3/步骤18…是),关键字输入处理已经结束时,执行附加信息选择处理(图3/步骤19)。
该附加信息选择处理用于选择在如上所述从选择出的媒体取得文本数据时对文本数据附加的信息,在附加信息选择处理的执行中,将图12所示的附加信息选择画面显示于显示器1a。
在该附加信息选择画面中,在附加信息选择处理的执行中,为了对其进行表示,将附加信息选择图标15反转显示,并且在其下侧显示“Additional Info”(附加信息)的字符。此外,在附加信息选择画面的靠左的部分显示3个复选框15a~15c。复选框15a用于对取得的数据附加后述的感性信息,为了对其进行表示,在复选框15a的右侧显示“感性信息”的字符。
此外,复选框15b用于对所取得的数据附加与关键字关联的信息,为了对其进行表示,在复选框15b的右侧显示“关键字信息”的字符。并且,复选框15c用于提高针对长文的感性信息的精度,为了对其进行表示,在复选框15c的右侧显示“提高针对长文的感性信息的精度”的字符。
当在这样显示有复选框15a~15c的状态下,通过用户操作而选择了复选框15a~15c中的任意一方时,为了对其进行表示,在所选择的复选框内显示勾选,同时将复选框反转显示。在图12所示的例中,示出选择了全部3个复选框15a~15c的状态。如以上那样,执行附加信息选择处理。
接着,判定附加信息选择处理是否已经结束(图3/步骤20)。该情况下,当在复选框15a~15c中的任意一方显示有勾选的状态下,通过用户操作而按下了下一步按钮17时,判定为附加信息选择处理已经结束,在这以外的情况下,判定为附加信息选择处理未结束。
当该判定为否定(图3/步骤20…否)时,返回上述的附加信息选择处理。另一方面,当该判定为肯定(图3/步骤20…是),附加信息选择处理已经结束时,执行最终确认处理(图3/步骤21)。
该最终确认处理用于用户最终确认如以上那样自己选择和输入的结果,在最终确认处理的执行中,将图13所示的最终确认画面显示于显示器1a。
在该最终确认画面中,在最终确认处理的执行中,为了对其进行表示,将最终确认图标16反转显示,并且在其下侧显示“Confirmation”(确认)的字符。此外,在最终确认画面的中央部,分别显示如以上那样设定的各种项目和它们的设定值,并且在其右下侧显示结束(Finish)按钮19。如以上那样,执行最终确认处理。
接着,判定最终确认处理是否已经结束(图3/步骤22)。该情况下,当在显示有最终确认画面的状态下,通过用户操作而按下结束按钮19时,判定为最终确认处理已经结束,在这以外的情况下,判定为最终确认处理未结束。
当该判定为否定(图3/步骤22…否)时,返回上述的最终确认处理。另一方面,当该判定为肯定(图3/步骤22…是),最终确认处理已经结束时,执行数据取得处理(图3/步骤23)。
具体而言,根据以上那样由用户设定的各种条件,经由主服务器2从上述那样选择出的媒体的外部服务器4取得文本数据。该情况下,在选择了日语和英语双方作为取得文本数据时的语言的情况下,取得混合了对英语进行机器翻译后的文本数据和日语文本数据而得到的数据,作为文本数据。此外,该情况下,也可以构成为,不经由主服务器2,而是通过数据处理装置1从部服务器4取得文本数据。
接着,执行感性信息的提取处理(图3/步骤24)。在该处理中,使用对文章的结构、单词的连接关系进行理解/判断的语言理解算法,分类提取在上述的数据取得处理中取得的文本数据的感性信息。具体而言,分类为3个大分类“正面”(Positive)、“中性”(Neutral)、“负面”(Negative)、以及各大分类的下位的大量小分类(参照后述图27)这样的2个阶段来提取数据的感性信息。
接着,生成保存数据(图3/步骤25)。具体而言,将在上述提取处理中提取的感性信息与在上述数据取得处理中取得的文本数据关联起来,从而生成保存数据。
接着,将以上那样生成的保存数据作为数据库的一部分而存储于装置主体1b的储存器(图3/步骤26)。然后,结束本处理。
接着,参照图4,对前述的数据清理处理(图2/步骤2)的内容进行说明。在该处理中,如该图所示,首先,判定是否通过用户操作而按下了上述的数据清理按钮20(图4/步骤40)。当该判定为否定(图4/步骤40…否)时,直接结束本处理。
另一方面,当该判定为肯定(图4/步骤40…是),按下了数据清理按钮20时,执行数据选择处理(图4/步骤41)。这样在按下了数据清理按钮20的情况下,为了对其进行表示,以粗线显示数据清理按钮20的外框,并且以网线状态显示数据清理按钮20的内部(参照图14)。
在该数据选择处理中,将图14所示的数据选择画面显示于显示器1a。在该数据选择画面的上侧,按照从左到右的顺序显示数据文件选择图标21、清理关键字图标22和最终确认图标23。
在该数据选择处理的执行中,为了对其进行表示,将数据文件选择图标21反转显示,并且在其下侧显示“Select Data File”(选择数据文件)的字符。与此同时,在数据选择画面的中央部,显示显示窗24a和选择按钮25a。
当通过用户操作而按下了该选择按钮25a时,显示未图示的菜单画面,显示装置主体1b的储存器内的文件夹和数据(均未图示)。在该状态下,当通过用户操作而选择了要实施数据清理处理的数据文件时,将存储有该数据文件的文件夹的路径名和数据文件名显示于显示窗24a。另外,在图14所示的例中,以“xxxxx……”显示有文件夹的路径名和数据文件名。这一点在后述的图19等中也是同样的。
该情况下,当执行图2所示的步骤1~4的各处理时,在装置主体1b的储存器内不限于存储上述的保存数据,如下所述,成为将包含清理完成数据、感性修正完成数据和赋予标签完成数据的数据文件存储为数据库的状态。该情况下,在该数据选择处理中,用户能够任意地选择这4种数据文件中的任意数据文件。如以上那样,执行数据选择处理。
接着,判定数据选择处理是否已经结束(图4/步骤42)。该情况下,如上所述,当在文件夹的路径名和数据文件名被显示于显示窗24a的状态下,通过用户操作而按下了下一步按钮17时,判定为数据选择处理已经结束,在这以外的情况下,判定为数据选择处理未结束。
当该判定被否定(图4/步骤42…否)时,返回上述的数据选择处理。另一方面,当该判定被肯定(图4/步骤42…是),数据选择处理已经结束时,执行清理关键字处理(图4/步骤43)。
该清理关键字处理用于从如上所述选择的数据文件中排除不需要的数据,清理关键字处理的执行中,将图15所示的清理关键字画面显示于显示器1a。该图15所示的清理画面是在上述的数据选择处理中选择了上述的保存数据的情况下的例子。
在该清理关键字画面中,在清理关键字处理的执行中,为了对其进行表示,将清理关键字图标22反转显示,并且在其下侧显示“Cleansingkeyword”(清理关键字)的字符。
并且,在清理关键字画面的中央部,数据文件中的文本数据按照其重复数从多到少的顺序从上到下进行显示。即,在数据文件内存在完全一致的文本数据的集合的情况下,按照集合从大到小的顺序进行显示。并且,在各数据中,从左到右显示该重复数的位次(No.)、文本数据(TEXT)和重复数(COUNT)。
此外,在文本数据的左侧,按照从上到下的顺序显示有操作按钮24、清理按钮25、关键字保存按钮26和关键字读出按钮27。并且,在文本数据的右下侧显示有表示文本数据的页数的大量的按钮28a、以及用于文本数据翻页的按钮28b、28b。
用户目视确认清理关键字画面中显示的文本数据,在发现不需要的文本数据的情况下,在经由输入接口1c按下操作按钮24后,通过指示器来选择不需要的文本数据中含的排除关键字(噪声)。然后,在这样选择了排除关键字的情况下,如图16所示,将所选择的排除关键字(该图中为“速报(日语为“キニ速”)”)反转显示。
此外,当通过用户操作而按下清理关键字画面中的清理按钮25时,如图17所示,显示用于输入筛选关键字的输入窗29a、和显示所选择的排除关键字的显示窗29b。并且,当通过用户操作而按下了关键字保存按钮26时,将排除关键字存储于装置主体1b的储存器,当通过用户操作而按下了关键字读出按钮27时,将装置主体1b的储存器中存储的排除关键字显示于显示窗29b。
除此之外,在图17所示的画面显示状态中,当通过用户操作而按下了清理按钮25时,以删除了包含排除关键字的全部的文本数据的状态进行显示(未图示)。如以上那样,执行清理关键字处理。
接着,判定清理关键字处理是否已经结束(图4/步骤44)。该情况下,当在显示有清理关键字画面的状态下,通过用户操作而按下了下一步按钮17时,判定为清理关键字处理已经结束,在这以外的情况下,判定为清理关键字处理未结束。
当该判定为否定(图4/步骤44…否)时,返回上述的清理关键字处理。另一方面,当该判定为肯定(图4/步骤44…是),清理关键字处理已经结束时,执行最终确认处理(图4/步骤45)。
该最终确认处理用于用户最终确认如以上那样自己选择的排除关键字等,在最终确认处理的执行中,将图18所示的最终确认画面显示于显示器1a。
在该最终确认画面中,在最终确认处理的执行中,为了对其进行表示,将最终确认图标23反转显示,并且在其下侧显示“Confirmation”(确认)的字符。此外,在最终确认画面的中央部,显示在清理关键字处理中输入的检索关键字和排除关键字。在图18所示的例中,未输入检索关键字,由此,显示“0”作为检索关键字,并且显示“キニ速”作为排除关键字。如以上那样,执行最终确认处理。
接着,判定最终确认处理是否已经结束(图4/步骤46)。该情况下,当在显示有最终确认画面的状态下,通过用户操作而按下了结束按钮19时,判定为最终确认处理已经结束,在这以外的情况下,判定为最终确认处理未结束。
当该判定为否定(图4/步骤46…否)时,返回上述的最终确认处理。另一方面,当该判定为肯定(图4/步骤46…是),最终确认处理已经结束时,将清理完成数据作为数据库的一部而存储于装置主体1b的储存器(图4/步骤47)。该清理完成数据是如以上那样实施了数据清理后的文本数据。然后,结束本处理。
接着,参照图5,对上述的感性信息修正处理(图2/步骤3)的内容进行说明。在该处理中,如该图所示,首先,判定是否通过用户操作而按下了上述的感性修正按钮30(图5/步骤50)。当该判定为否定(图5/步骤50…否)时,直接结束本处理。
另一方面,当该判定为肯定(图5/步骤50…是),按下了感性修正按钮30时,执行数据选择处理(图5/步骤51)。在这样按下了感性修正按钮30的情况下,为了对其进行表示,以粗线显示感性修正按钮30的外框,并且以网线状态显示感性修正按钮30的内部(参照图19)。
在该数据选择处理中,将如图19所示的数据选择画面显示于显示器1a。在该数据选择画面的上侧,以从左到右的顺序显示数据文件选择图标31、感性修正图标32和最终确认图标33。
在数据选择处理的执行中,为了对其进行表示,将数据文件选择图标31反转显示,并且在其下侧显示“Select Data File”(选择数据文件)的字符。与此同时,在数据选择画面的中央部显示显示窗34和选择按钮35。
当通过用户操作而按下了该选择按钮35时,显示未图示的菜单画面,并显示装置主体1b的储存器内的文件夹和数据(均未图示)。在该状态下,当通过用户操作选择了要实施感性修正的数据文件时,将存储有该数据文件的文件夹的路径名和数据文件名显示于显示窗34。
在该数据选择处理中,在保存数据、清理完成数据、感性修正完成数据和数据库被存储于装置主体1b的储存器内的情况下,用户也能够任意地选择这4种数据文件中的任意数据文件。如以上那样,执行数据选择处理。
接着,判定数据选择处理是否已经结束(图5/步骤52)。该情况下,如上所述,当在文件夹的路径名和数据文件名被显示于显示窗34的状态下,通过用户操作而按下下一步按钮17时,判定为数据选择处理已经结束,在这以外的情况下,判定为数据选择处理未结束。
当该判定为否定(图5/步骤52…否)时,返回上述的数据选择处理。另一方面,当该判定为肯定(图5/步骤52…是),数据选择处理已经结束时,执行感性修正处理(图5/步骤53)。
该感性修正处理用于在与如上所述选择出的数据文件关联的感性信息有错的情况下,对其进行修正,在感性修正处理的执行中,将图20所示的感性修正画面显示于显示器1a。
在该感性修正画面中,在感性修正处理的执行中,为了对其进行表示,将感性修正图标32反转显示,并且在其下侧显示“SenseCheck”(感性修正)的字符。
并且,在感性修正画面中,从左到右显示有3个大分类“正面”、“中性”、“负面”的标签36a~36c。然后,当通过用户操作而选择了这些标签36a~36c中的任意标签时,显示感性信息和文本信息等。
例如,如图20所示,在选择了“正面”的标签36a的情况下,为了对其进行表示,将“正面”的标签36a反转显示。与此同时,将数据文件中的文本数据按照其重复数从多到少的顺序从上到下进行显示。而且,在各数据中,从左到右显示该重复数的位次(No.)、感性信息(SENSE)、感性表达(EXPRESSION)、文本数据(TEXT)和重复数(COUNT)。
在这样显示有各数据的情况下,用户通过参照所显示的感性信息、感性表达和文本数据的内容,能够判定感性信息是否正确。例如,在图20所示的例中,在No.1的数据中,虽然其感性信息是“表扬·赞美”,但文本数据是“无法启动发动机(日语为“エンジンがかからない”)”这样的内容,因此,用户能够判定为该感性信息错误,应进行修正。
而且,在这样对感性信息进行修正的情况下,用户通过输入接口1c的操作,按下No.1的数据的感性信息的显示窗的右侧的下拉菜单按钮37。伴随于此,如图21所示,显示下拉菜单38,因此,用户通过输入接口1c的操作从该下拉菜单38内的各种感性信息中选择适当的感性信息。例如,在图21所示的例中,选择了“不好”这样的感性信息,为了对其进行表示,通过点描而显示有“不好”这样的感性信息。如以上那样,执行感性修正处理。
接着,判定感性修正处理是否已经结束(图5/步骤54)。该情况下,当在显示有感性修正画面的状态下,通过用户操作而按下了下一步按钮17时,判定为感性修正处理已经结束,在这以外的情况下,判定为感性修正处理未结束。
当该判定为否定(图5/步骤54…否)时,返回上述的感性修正处理。另一方面,当该判定为肯定(图5/步骤54…是),感性修正处理已经结束时,执行最终确认处理(图5/步骤55)。
该最终确认处理用于用户最终确认如以上那样自己修正后的感性信息等,在最终确认处理的执行中,将图22所示的最终确认画面显示于显示器1a。
在该最终确认画面中,在最终确认处理的执行中,为了对其进行表示,将最终确认图标33反转显示,并且在其下侧显示“Confirmation”(确认)的字符。此外,在最终确认画面的中央部,从左到右显示文本数据(TEXT)、表达(EXPRESSION)、修正前的感性信息(BEFORE(之前))和修正后的感性信息(AFTER(之后))。在图22所示的例中,显示“表扬·赞美”作为修正前的感性信息,显示“不好”作为修正后的感性信息。如以上那样,执行最终确认处理。
接着,判定最终确认处理是否已经结束(图5/步骤56)。该情况下,当在显示有最终确认画面的状态下,通过用户操作而按下了结束按钮19的情况下,判定为最终确认处理已经结束,在这以外的情况下,判定为最终确认处理未结束。
当该判定为否定(图5/步骤56…否)时,返回上述的最终确认处理。另一方面,当该判定为肯定(图5/步骤56…是),最终确认处理已经结束时,将感性修正完成数据作为数据库的一部分而存储于装置主体1b的储存器(图5/步骤57)。该感性修正完成数据是对如以上那样与文本数据关联的感性信息进行修正后的文本数据。然后,结束本处理。
接着,参照图6对上述的赋予用户定义标签处理(图2/步骤4)的内容进行说明。在该处理中,如该图所示,首先,判定是否通过用户操作而按下了上述的赋予标签按钮40(图6/步骤60)。当该判定为否定(图6/步骤60…否)时,直接结束本处理。
另一方面,当该判定为肯定(图6/步骤60…是),赋予标签按钮40被按下时,执行数据选择处理(图6/步骤61)。在这样按下了赋予标签按钮40的情况下,为了对其进行表示,以粗线显示赋予标签按钮40的外框,并且以网线状态显示赋予标签按钮40的内部(参照图23)。
该数据选择处理用于选择要附加后述的用户定义标签的对象的数据文件,在数据选择处理的执行中,将图23所示的数据选择画面显示于显示器1a。在该数据选择画面的上侧,以从左到右的顺序显示数据文件选择图标41和用户定义标签选择图标42。
在数据选择处理的执行中,为了对其进行表示,将数据文件选择图标41反转显示,并且在其下侧显示“Select Data File”(选择数据文件)的字符。与此同时,在数据选择画面的中央部,显示显示窗43和选择按钮44。
在当通过用户操作而按下了该选择按钮44时,显示未图示的菜单画面,并显示装置主体1b的储存器内的文件夹和数据(均未图示)。在该状态下,当通过用户操作而选择了数据文件时,将存储有该数据文件的文件夹的路径名和数据文件名显示于显示窗43。
在该数据选择处理中,在保存数据、清理完成数据、感性修正完成数据和数据库被存储于装置主体1b的储存器内的情况下,用户也能够任意地选择这4种数据文件中的任意数据文件。如以上那样,执行数据选择处理。
接着,判定数据选择处理是否已经结束(图6/步骤62)。该情况下,如上所述,当在文件夹的路径名和数据文件名被显示于显示窗43的状态,通过用户操作而按下了下一步按钮17时,判定为数据选择处理已经结束,在这以外的情况下,判定为数据选择未结束。
当该判定为否定(图6/步骤62…否)时,返回上述的数据选择处理。另一方面,当该判定为肯定(图6/步骤62…是),数据选择处理已经结束时,执行用户定义标签选择处理(图6/步骤63)。
该用户定义标签选择处理用于选择对如上所述选择的数据文件进行关联的用户定义标签,在用户定义标签选择处理的执行中,将图24所示的用户定义标签选择画面显示于显示器1a。
在该用户定义标签选择画面中,在用户定义标签选择处理的执行中,为了对其进行表示,将用户定义标签选择图标42反转显示,并且在其下侧显示“Tag Definition”(标签定义)的字符。与此同时,在用户定义标签选择画面的中央部,显示显示窗45和选择按钮46,并且在选择按钮46的下侧显示预览按钮47。
当通过用户操作而按下了该选择按钮46时,显示未图示的菜单画面,并显示装置主体1b的储存器内的文件夹和数据(均未图示)。在该状态下,当通过用户操作而选择了要对文本数据赋予标签的用户定义标签文件时,将存储有该用户定义标签文件的文件夹的路径名和用户定义标签文件名显示于显示窗45。
这样,当在用户定义标签文件名被显示于显示窗45的状态下,通过用户操作而按下了预览按钮47时,将图25所示的用户定义标签画面显示于显示器1a。在该用户定义标签画面中显示标签一览表48和OK按钮49。在该标签一览表48中,从左到右显示有大分类的类别(level1)、小分类的类别(level2)和字符串(word)。这些类别和字符串由用户预先定义。
在图25所示的例中,作为大分类的类别而定义有“4轮”和“2轮”,作为小分类的类别而定义有作为车名的“ACCORD(注册商标)”、“ACTY(注册商标)”和“Africa Twin”以及作为品牌名的“ACURA(注册商标)”等。并且,作为字符串,除了上述的罗马字记载的车名和品牌名以外,还定义有片假名记载的车名“アコード”(注册商标)和“アクティ”(注册商标)、以及片假名记载的品牌名“アキュラ”(注册商标)。
用户通过参照该标签一览表48,能够确认自己选择的用户定义标签文件的内容。并且,用户通过操作输入接口1c而按下OK按钮49,能够返回图24所示的画面显示。如以上那样,执行用户定义标签选择处理。
接着,判定用户定义标签选择处理是否已经结束(图6/步骤64)。该情况下,当在用户定义标签文件的文件夹的路径名和用户定义标签文件名被显示于显示窗45的状态下,通过用户操作而按下了结束按钮19时,判定为用户定义标签选择处理已经结束,在这以外的情况下,判定为用户定义标签选择处理未结束。
当该判定为否定(图6/步骤64…否)时,返回上述的用户定义标签选择处理。另一方面,当该判定为肯定(图6/步骤64…是),用户定义标签选择处理已经结束时,利用上述那样选择的用户定义标签文件对文本数据赋予标签,从而生成赋予标签完成数据(图6/步骤65)。
接着,将赋予标签完成数据作为数据库的一部分而存储于装置主体1b的储存器(图6/步骤66)。然后,结束本处理。
接着,参照图7对上述的数据可视化处理(图2/步骤5)的内容进行说明。在该处理中,如该图所示,首先,判定是否通过用户操作而按下了上述的可视化按钮50(图7/步骤70)。当该判定为否定(图7/步骤70…否)时,直接结束本处理。
另一方面,当该判定为肯定(图7/步骤70…是),按下了可视化按钮50时,执行数据选择处理(图7/步骤71)。在这样按下了可视化按钮50的情况下,为了对其进行表示,以粗线显示可视化按钮50的外框,并且以网线状态显示可视化按钮50的内部(参照图26)。
该数据选择处理用于对要进行图形显示的数据库的数据文件进行选择,在数据选择处理的执行中,将图26所示的数据选择画面显示于显示器1a。
在该数据选择画面的上侧显示数据文件选择图标51。在数据选择处理的执行中,为了对其进行表示,将数据文件选择图标51反转显示,并且在其下侧显示“Select DataFile”(选择数据文件)的字符。与此同时,在数据选择画面的中央部显示显示窗52和选择按钮53。
当通过用户操作而按下该选择按钮了53时,显示未图示的菜单画面,并显示装置主体1b的储存器内的文件夹和数据(均未图示)。在该状态下,当通过用户操作而选择了数据库的数据文件时,将存储有该数据文件的文件夹的路径名和数据文件名显示于显示窗52。
在该数据选择处理中,在保存数据、清理完成数据、感性修正完成数据和数据库被存储于装置主体1b的储存器内的情况下,用户能够任意地选择这4种数据文件中的任意的数据文件。如以上那样,执行数据选择处理。
接着,判定数据选择处理是否已经结束(图7/步骤72)。该情况下,如上所述,当在文件夹的路径名和数据文件名被显示于显示窗52的状态下,通过用户操作而按下了结束按钮19时,判定为数据选择处理已经结束,在这以外的情况下,判定为数据选择未结束。
当该判定为否定(图7/步骤72…否)时,返回上述的数据选择处理。另一方面,当该判定为肯定(图7/步骤72…是),数据选择处理已经结束时,执行数据显示处理(图7/步骤73)。
该数据显示处理用于将如上所述选择的数据文件内的各种数据以用户能够目视确认的方式进行图形化显示。另外,在以下的说明中,说明了如下情况的例子:显示针对上述的数据取得处理中取得的文本数据文件实施了全部的数据清理处理、感性信息修正处理和赋予用户定义标签处理后得到的数据文件。
在该数据显示处理的执行中,将图27所示的初始显示画面显示于显示器1a。如该图所示,在该初始显示画面的情况下,在最上位的左侧以圆环状的图形(圆环图)形式显示感性信息的3个大分类“正面”、“中性”、“负面”。在该图形中,3个大分类的区域的面积是根据其命中数的比例(%)而被设定的,以彼此不同的颜色区分显示。除此之外,将各大分类的名称和命中数的比例显示于与图形接近的位置。由此,用户能够一目了然地判断检索结果中的感性信息的3个大分类的比例。
此外,在圆环状的图形的右侧,以棒图形式显示大量的感性信息“中性”的下位的小分类(例如,“提问”、“询问”和“希望”等)。在该棒图的情况下,横轴表示命中数,这一点在以下的棒图中也是同样的。
并且,在表示3个大分类的比例的圆环状的图形的下侧,以棒图形式显示大量的感性信息“正面”的下位的小分类(例如,“好”,“想买”和“感谢”等)。此外,在感性信息“中性”的棒图的下侧,以棒图形式显示大量的感性信息“负面”的下位的小分类(例如,“不好”、“不满意”和“为难”等)。
除此之外,在感性信息“正面”的棒图的下侧,以棒图形式显示大量的用户定义标签的大分类的类别“4轮”的下位的小分类(例如,“N BOX(注册商标)”、“FIT(注册商标)”和“FREED(注册商标)”等)。并且,在感性信息“负面”的棒图的下侧,以棒图形式显示大量的用户定义标签的大分类的类别“2轮”的下位的小分类(例如,“CUB”,“BIO”和“GOLD WING(注册商标)”等)。
此外,在图27所示的初始显示画面的感性信息“中性”的棒图中,例如,通过用户操作而点击了小分类“询问”的棒图60的情况下,显示图28所示的小分类“询问”的关联画面(以下称作“询问关联画面”)。如该图所示,在该询问关联画面中,感性信息“询问”的关联语以关键字“购买(日语为“購入”)”为中心,以词云形式显示与其关联且命中数多的词语。并且,在其右侧以棒图形式显示感性信息的有无的比例。
另一方面,在询问关联画面的中央的上侧显示有恢复按钮62,在通过用户操作而按下了该恢复按钮62的情况下,将显示器1a中显示的画面从询问关联画面恢复到初始显示画面。另外,在图27所示的初始显示画面的感性信息“中性”的棒图中,在点击了小分类“询问”以外的小分类(例如“提问”)的棒图的情况下,也显示与图28同样的画面。
并且,在图27所示的初始显示画面的用户定义的大分类“2轮”的棒图中,例如,在通过用户操作而点击了小分类“CUB”的棒图61的情况下,显示图29所示的小分类“CUB”的关联画面(以下称作“CUB关联画面”)。如该图所示,在该CUB关联画面中,用户定义标签的小分类的类别“CUB”的关联语以关键字“超级幼兽(日语为“スーパーカブ”)(注册商标)”为中心,以词云形式显示与其关联且命中数多的词语。并且,在其右侧以棒图形式显示感性信息的有无的比例。
在该图29所示的CUB关联画面的中央的上侧,显示有恢复按钮62,在通过用户操作而按下了该恢复按钮62的情况下,将显示器1a中显示的画面从CUB关联画面恢复为初始显示画面。另外,在图27所示的初始显示画面的大分类“2轮”的棒图中,在点击了小分类“CUB”以外的小分类(例如“BIO”)的棒图的情况下,也显示与图29同样的画面。如以上那样,执行数据显示处理。
接着,判定数据显示处理是否已经结束(图7/步骤74)。该情况下,当在图27~29中的任意的画面显示于显示器1a的状态下,通过用户操作而按下了画面的右上的结束按钮63时,判定为数据显示处理已经结束,在这以外的情况下,判定为数据显示处理未结束。
当该判定为否定(图7/步骤74…否)时,返回上述的数据显示处理。另一方面,当该判定为肯定(图7/步骤74…是),数据显示处理已经结束时,直接结束数据可视化处理。
如以上那样,根据本实施方式的数据处理装置1,在数据取得处理中,在通过用户操作决定了媒体、检索期间、语言和检索关键字&排除关键字等条件作为规定的取得条件后,从外部服务器4取得文本数据。然后,将所取得的文本数据作为保存数据而存储于装置主体1b的储存器内。
该情况下,即使在外部服务器4内存在包含与检索关键字无关但与检索关键字相同或类似的关键字在内的文本数据,由于通过用户操作而输入了能够避免取得这样的文本数据的关键字作为排除关键字,因此,也能够高精度地取得与检索关键字关联的文本数据。
此外,在数据清理处理中,用户在清理关键字画面中发现了不需要的文本数据的情况下,选择不需要的文本数据中包含的排除关键字,并按下清理按钮25,由此,能够删除包含排除关键字的全部的文本数据,从而生成清理完成数据。
此时,在清理关键字画面中,数据文件中的文本数据按照其重复数从多到少的顺序从上到下进行显示,因此,用户能够按照文本信息的重复数从多到少的顺序来选择排除关键字。由此,能够高效地从多个文本信息中去除包含作为噪声的排除关键字的文本信息。
此外,在清理关键字画面中,由于显示用户输入的排除关键字,因此,用户能够目视确认用户自己到目前为止所选择的排除关键字。由此,能够提高便利性。
并且,在感性信息修正处理中,由于将感性信息和文本数据显示于感性修正画面上,因此用户在目视确认该显示内容的同时能够容易地对感性信息进行修正。
除此之外,在赋予用户定义标签处理中,将用户定义标签与文本数据进行关联,生成数据库,因此,能够根据用户定义标签的信息来执行数据库的检索等,能够进一步提高数据库的有用性。
此外,在数据可视化处理中,将数据库中包含的3个大分类的感性信息以彼此不同的色彩且可知晓其比例的方式显示于显示器1a,因此,用户能够容易地目视确认3个大分类的感性信息的比例。
另外,实施方式是使用计算机类型的数据处理装置1作为数据处理装置的例子,但是本发明的数据处理装置不限于此,只要具有输出接口、输入接口、文本信息取得部、噪声去除完成信息生成部和数据库生成部即可。例如,也可以将组合了计算机类型的数据处理装置1和主服务器2的结构用作数据处理装置。此外,可以将平板终端用作数据处理装置,也可以将组合了平板终端和主服务器2的结构用作数据处理装置。
此外,实施方式是使用显示器1a作为输出接口的例子,但是本发明的输出接口不限于此,只要能够显示多个文本信息等即可。例如,作为输出接口,也可以使用1个监视器或1个触摸面板式监视器。此外,作为输出接口,也可以使用3D全息图装置或头戴式的VR装置。
并且,实施方式是使用由键盘和鼠标等构成的输入接口1c作为输入接口的例子,但是本发明的输入接口不限于此,只要由用户执行各种操作即可。例如,作为输入接口,可以使用激光指示器等光学式指点设备,也可以使用触摸面板和触控笔等接触式的设备。并且,作为输入接口,也可以使用能够将声音转换为各种操作的非接触式的设备。
另一方面,实施方式是使用组合了检索期间、检索语言、检索关键字、排除关键字和附加信息等的条件作为规定的取得条件的例子,但是本发明的规定的取得条件不限于此,也可以使用其他条件。例如,作为规定的取得条件,也可以使用对上述的取得条件进一步追加了检索关键字和排除关键字的条件。
此外,实施方式是如下例子:在图15所示的清理关键字画面中显示文本数据时,在完全一致的文本数据的集合中按照重复数从多到少的顺序进行了显示,但是也可以构成为,生成汇总了完全一致的文本数据、以及1个字符或2个字符不同的文本数据(近似的信息)后的文本数据的集合,并且以该集合从大到小的顺序进行显示。
并且,实施方式是使用排除关键字(速报)作为噪声的例子,但是,本发明的噪声不限于此,只要是多个文本信息中的各个文本信息中的至少一部即可。例如,也可以使用组合了多个单词的内容作为噪声。
另一方面,实施方式是将通过外部服务器4构成的SNS媒体等作为规定媒体的例子,但是,本发明的规定媒体不限于此,也可以将在TV和广播等的硬件、或报纸等纸上公开信息的大众媒体作为规定媒体。该情况下,当将TV、广播和报纸等大众媒体作为规定媒体时,将TV、广播和报纸上所公开的信息(动画信息、声音信息和字符信息)经由计算机等的输入接口作为文本数据进行输入即可。
此外,实施方式是将感性信息划分为大分类和小分类这2个阶段的例子,但是本发明的感性信息不限于此,只要划分为从最上位到最下位的多个阶段的分类即可。例如,也可以将感性信息划分为3个阶段以上的分类。

Claims (8)

1.一种数据处理装置,其特征在于,
所述数据处理装置具备:
输出接口;
输入接口,其由用户进行操作;
文本信息取得部,其以规定的取得条件从由规定媒体公开的信息中取得多个文本信息;
文本信息显示部,其将该多个文本信息显示于所述输出接口;
噪声去除完成信息生成部,其在通过所述用户对所述输入接口的操作而将显示于所述输出接口的所述多个文本信息的各个文本信息中的至少一部分指定为噪声时,生成噪声去除完成信息,该噪声去除完成信息是从所述多个文本信息中去除了包含被指定为该噪声的部分在内的所述文本信息后得到的所述文本信息;以及
数据库生成部,其对该噪声去除完成信息实施规定处理,从而生成数据库。
2.根据权利要求1所述的数据处理装置,其特征在于,
所述数据处理装置还具备:
噪声存储部,其存储所述噪声;以及
噪声显示部,其在通过所述用户对所述输入接口的操作而执行了所述噪声的显示操作时,将所述噪声存储部中存储的所述噪声显示于所述输出接口。
3.根据权利要求1或2所述的数据处理装置,其特征在于,
所述文本信息取得部从由所述规定媒体公开的所述信息中提取感性信息,并且作为将该感性信息与由所述规定媒体公开的所述信息关联起来的信息而取得所述多个文本信息,
所述数据处理装置还具备噪声去除完成信息显示部,该噪声去除完成信息显示部将所述噪声去除完成信息和与该噪声去除完成信息关联的所述感性信息一起显示于所述输出接口,
所述数据库生成部的所述规定处理包含通过所述用户对所述输入接口的操作而执行的感性信息修正处理,在该感性信息修正处理中,对显示于所述输出接口的1个以上的所述噪声去除完成信息中的所述感性信息进行修正。
4.根据权利要求1至3中的任意一项所述的数据处理装置,其特征在于,
所述数据处理装置还具备标签信息存储部,该标签信息存储部存储由所述用户定义的标签信息,
所述数据库生成部的所述规定处理包含关联处理,在该关联处理中,将所述标签信息存储部中存储的所述标签信息与所述噪声去除完成信息关联起来。
5.根据权利要求1至4中的任意一项所述的数据处理装置,其特征在于,
所述文本信息显示部将根据所述多个文本信息所包含的信息的意思对该多个文本信息进行划分时的包含相同信息、或相同和近似的信息在内的所述文本信息的集合,按照该集合的从大到小的顺序显示于所述输出接口。
6.根据权利要求3所述的数据处理装置,其特征在于,
所述数据库生成部在将所述感性信息划分为多个分类的状态下生成所述数据库,
所述数据处理装置具备感性信息显示部,该感性信息显示部以彼此不同的色彩将所述数据库中包含的所述多个分类的所述感性信息显示于所述输出接口。
7.根据权利要求1至6中的任意一项所述的数据处理装置,其特征在于,
所述规定的取得条件是如下的条件:由所述规定媒体公开的所述信息包含规定信息,并且不包含可能与该规定信息混同的规定的混同信息。
8.一种数据处理方法,其特征在于,
所述数据处理方法包含如下步骤:
以规定的取得条件从由规定媒体公开的信息中取得多个文本信息;
将该多个文本信息显示于输出接口;
在通过用户对输入接口的操作而将显示于所述输出接口的所述多个文本信息中的各个文本信息中的至少一部分指定为噪声时,生成噪声去除完成信息,该噪声去除完成信息是从所述多个文本信息中去除了包含被指定为该噪声的部分在内的所述文本信息后得到的1个以上的所述文本信息;以及
对该噪声去除完成信息实施规定处理,从而生成数据库。
CN202010870063.8A 2019-09-04 2020-08-26 数据处理装置和数据处理方法 Pending CN112445388A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-161263 2019-09-04
JP2019161263A JP2021039595A (ja) 2019-09-04 2019-09-04 データ処理装置及びデータ処理方法

Publications (1)

Publication Number Publication Date
CN112445388A true CN112445388A (zh) 2021-03-05

Family

ID=74564722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010870063.8A Pending CN112445388A (zh) 2019-09-04 2020-08-26 数据处理装置和数据处理方法

Country Status (4)

Country Link
US (1) US20210064586A1 (zh)
JP (1) JP2021039595A (zh)
CN (1) CN112445388A (zh)
DE (1) DE102020210872A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
JP2005284776A (ja) * 2004-03-30 2005-10-13 Honda Motor Co Ltd テキストマイニング装置及びテキスト分析方法
CN102708108A (zh) * 2010-12-21 2012-10-03 卡西欧计算机株式会社 信息显示装置以及信息显示方法
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298365A (ja) * 1992-04-20 1993-11-12 Sharp Corp データ処理装置
JP5402188B2 (ja) * 2008-09-30 2014-01-29 新日鐵住金株式会社 操業支援方法、操業支援システム、及びコンピュータプログラム
JP6201212B2 (ja) * 2013-09-26 2017-09-27 Kddi株式会社 キャラクタ生成装置およびプログラム
JP6508676B2 (ja) * 2015-03-17 2019-05-08 株式会社Jsol 顔文字抽出装置、方法及びプログラム
JP6821528B2 (ja) * 2017-09-05 2021-01-27 本田技研工業株式会社 評価装置、評価方法、ノイズ除去装置、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
JP2005284776A (ja) * 2004-03-30 2005-10-13 Honda Motor Co Ltd テキストマイニング装置及びテキスト分析方法
CN102708108A (zh) * 2010-12-21 2012-10-03 卡西欧计算机株式会社 信息显示装置以及信息显示方法
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム

Also Published As

Publication number Publication date
US20210064586A1 (en) 2021-03-04
JP2021039595A (ja) 2021-03-11
DE102020210872A1 (de) 2021-03-04

Similar Documents

Publication Publication Date Title
US8468167B2 (en) Automatic data validation and correction
KR102310650B1 (ko) 검색 결과에서의 논리적인 질문 응답 기법
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
TWI594137B (zh) 網頁查詢中線上手寫辨識系統與方法及包含實施該方法之指令的電腦可讀取媒體
CN108228873A (zh) 对象推荐、发布内容推送方法、装置、存储介质和设备
US20100185600A1 (en) Apparatus and method for integration search of web site
WO2015047920A1 (en) Title and body extraction from web page
CN102317936A (zh) 识别评论以连同文档一起示出
CN101542486A (zh) 排序图
JP2005092271A (ja) 質問応答方法及び質問応答装置
US20110191381A1 (en) Interactive System for Extracting Data from a Website
US10572566B2 (en) Image quality independent searching of screenshots of web content
US20200264851A1 (en) Systems and methods for organizing, classifying, and discovering automatically generated computer software
US20150186739A1 (en) Method and system of identifying an entity from a digital image of a physical text
CN112765159A (zh) 报表生成方法、系统、计算机设备和存储介质
US20150206031A1 (en) Method and system of identifying an entity from a digital image of a physical text
US20160328110A1 (en) Method, system, equipment and device for identifying image based on image
CN113419721B (zh) 基于web的表达式编辑方法、装置、设备和存储介质
CN110866408A (zh) 数据库制作装置以及检索系统
CN112445388A (zh) 数据处理装置和数据处理方法
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
CN112783410B (zh) 信息处理方法、介质、装置和计算设备
JP5656230B2 (ja) アプリケーション操作事例の検索方法、装置及びブログラム
US20090210380A1 (en) Data search system, method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination