CN105095302A - 面向口碑分析与检视系统、装置及方法 - Google Patents
面向口碑分析与检视系统、装置及方法 Download PDFInfo
- Publication number
- CN105095302A CN105095302A CN201410211001.0A CN201410211001A CN105095302A CN 105095302 A CN105095302 A CN 105095302A CN 201410211001 A CN201410211001 A CN 201410211001A CN 105095302 A CN105095302 A CN 105095302A
- Authority
- CN
- China
- Prior art keywords
- public praise
- towards
- those
- vocabulary
- towards public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 188
- 238000007689 inspection Methods 0.000 title claims abstract description 86
- 238000004458 analytical method Methods 0.000 title claims abstract description 83
- 230000008569 process Effects 0.000 claims abstract description 137
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 16
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 abstract description 4
- 239000002585 base Substances 0.000 description 32
- 238000010586 diagram Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 13
- 238000002360 preparation method Methods 0.000 description 10
- 230000005055 memory storage Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 230000000366 juvenile effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种面向口碑分析与检视系统、装置及方法。其中,面向口碑分析与检视系统包含面向口碑处理流程与线上实时查询流程。面向口碑处理流程主要负责网络使用者产生内容(UGC)数据的取回,根据不同领域,提取相关口碑词汇并进行口碑极性分析,掌握其所属正负评价,进一步提取面向词汇与其对应的面向类别。并分析其口碑与面向词汇对应关系。在线上实时查询流程中,根据不同领域所属的分类架构,将口碑面向分析结果与分类架构进一步整合起来,以提供使用者不同层次的查询需求。
Description
技术领域
本发明是有关于一种分析与检视系统,特别是有关一种面向口碑分析与检视系统。
背景技术
随着各种网络服务发展,网络使用者产生内容(Usergeneratedcontent,UGC)数据量大且变化快速,而其内容多数属于主观性评论,例如产品评论、餐厅意见等,因此想要发展UGC数据增值应用服务,如电子商务产品推荐、网络产品口碑监控、智能型对话系统以及政府施政民意调查等。
在美国专利申请公开案(USPatentAppl.No.20090193328)所提出一种面向为主的口碑摘要方法(Aspect-BasedSentimentSummarization),提出一种先提取口碑词再进行口碑极性分数计算的方法。中国专利CN103049435A提出一种文本细粒度情感分析方法及装置,也是先提取口碑词再进行口碑极性分数计算;面向用语则是先提取面向词,再进行面向分类。中国台湾专利TW201115370提出一种提取及管理社群智能信息的系统与方法,先提取口碑词再进行口碑极性分类;面向用语则是先经过断词后,再进行面向分类。美国专利申请公开案(USPatentAppl.No.20120278064A1)提出一种从文件内容决定口碑的系统与方法!(Systemandmethodfordeterminingsentimentfromtextcontent),也是采用先通过词库比对提取口碑词,再进行口碑极性分数计算;面向用语则先经过词汇提取后,再进行面向分类比对。
发明内容
本发明多个实施例其中之一,提供一种面向口碑分析与检视系统,包括词汇提取与分类模块以及词汇关联模块。词汇提取与分类模块用以接收使用者产生内容数据,并据以对使用者产生内容数据进行口碑词汇提取分类流程以及面向词汇提取分类流程,并产生多个口碑面向词汇。一词汇关联模块,取得所述口碑面向词汇,并用以进行面向口碑关联处理流程,其中面向口碑的关联处理程序用以判断所述口碑面中的多个面向词汇与多个口碑词汇之间的对应关系,并输出多个面向口碑关联数据,其中,面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用面向口碑连结信息产生面向口碑关联数据,其中面向口碑关联对数量由面向口碑连接分类器调整。
本发明多个实施例其中之一,提供一种面向口碑分析与检视系统,还包括面向口碑检视模块系统。面向口碑检视模块系统根据查询提取对应查询的面向口碑关联数据,依照领域分类架构提供多层次面向口碑信息。
本发明多个实施例其中之一,提供一种面向口碑检视装置,包括处理装置以及显示设备,其中,所述处理装置设定用以执行词汇提取与分类流程、词汇关联流程、以及多层次面向口碑检视流程。此词汇提取与分类流程用以接收多元词组数据,并据以对此多元词组数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇。此词汇关联流程取得所产生的口碑面向词汇,用以进行面向口碑关联处理流程,其中面向口碑关联处理程序用以判断该些口碑面中的多个面向词汇与多个口碑词汇之间的对应关系,并输出多个面向口碑关联数据。多层次面向口碑检视流程根据查询搜寻取得对应此查询的多个面向口碑关联数据,并将取得对应此查询的多个面向口碑关联数据依照领域分类架构提供一多层次面向口碑信息,并依照此领域分类架构在显示设备上显示多层次面向口碑信息,其中,面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用面向口碑连结信息产生面向口碑关联数据,其中面向口碑关联对数量由面向口碑连接分类器调整。
本发明多个实施例其中之一,提供一种面向口碑检视装置,包括处理装置、显示设备、以及连接装置。处理装置设定用以执行多层次面向口碑检视多层次流程,其中此多层次面向口碑检视流程根据查询取得对应此查询的多个面向口碑关联数据以及领域分类架构资料,根据此领域分类架构数据在该显示设备上显示多层次面向口碑信息。此处理装置根据此查询通过连接装置对位于网络终端的面向口碑知识数据库与领域分类架构数据库进行查询与存取后得到所述的面向口碑关联数据以及领域分类架构数据。而这些面向口碑关联数据是经过对多元词组数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇,并对所述的面向词汇与口碑词汇进行面向口碑关联处理流程,以判断所述面向词汇与口碑词汇之间的对应关系,并产生面向口碑关联数据,其中,面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用面向口碑连结信息产生面向口碑关联数据,其中面向口碑关联对数量由面向口碑连接分类器调整。
本发明多个实施例其中之一,提供一种面向口碑分析与检视方法。对多元词组数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇。对所述面向词汇与口碑词汇进行面向口碑关联处理流程,用以判断这些面向词汇与口碑词汇之间的对应关系,并输出多个面向口碑关联数据。执行面向口碑检视流程,根据查询搜寻取得对应此查询的面向口碑关联数据,并将取得对应此查询的面向口碑关联数据依照领域分类架构提供多层次面向口碑信息。面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用面向口碑连结信息产生面向口碑关联数据,其中,面向口碑关联对数量由一面向口碑连接分类器调整。
附图说明
图1为说明本发明一实施例的一种特定领域的面向口碑分析与检视系统功能方块示意图。
图2为说明本发明一实施例的面向口碑分析与检视系统流程示意图。
图3A-3E为说明本发明一实施例的一种面向口碑分析中,关于面向口碑词汇提取分类流程示意图。
图4为说明本发明一实施例的面向口碑分析中,关于面向口碑词汇提取分类的一个实施范例的图形化模块示意图。
图5为说明本发明一实施例的一种面向口碑分析中,关于面向口碑词汇关联分类流程中分类器建构与训练的功能方块示意图。
图6为说明本发明一实施例的一种特定领域的面向口碑分析与检视系统流程示意图。
图7A与7B为说明本发明一实施例的一种特定领域的面向口碑检视流程的一应用范例的示意图。
图8为说明本发明一实施例的一种特定领域的面向口碑检视流程的另一应用范例的示意图。
图9A与图9B分别为说明本发明一实施例的一种特定领域的面向口碑分析与检视系统应用范例的系统架构示意图。
【符号说明】
100:面向口碑分析与检视系统
102:面向口碑分析系统
104:面向口碑检视系统
110:使用者产生内容数据
120:词汇提取与分类模块
130:词汇关联模块
140:面向口碑知识数据库
150:多层次信息检视模块
152:需求接收模块
160:领域分类架构数据库
200:面向口碑分析与检视系统
202:面向口碑分析系统
204:面向口碑检视系统
240:使用者产生内容数据库
250:巨量语料数据库
260:面向口碑知识数据库
270:领域分类架构数据库
S210~S230:面向口碑分析与检视流程
S310~S340:面向口碑词汇提取分类流程
W1~W5:词汇(窗口)
X:特征
Y:代表名称或是别名标记
510:面向口碑关联对(Pair)数据库
520:面向口碑查询数据库
530:面向口碑标记文件数据库
540:训练片段(Snippets)资料
550:正面范例数据
552:反面范例数据
S511~S557:面向口碑词汇分类流程步骤
S642~S648:特定领域的面向口碑分析与检视系统流程
600:面向口碑分析与检视系统
610:使用者产生内容(UGC)数据
620:面向口碑知识数据库
630:领域分类架构数据库
701:使用者
710:接收需求模块
712:知识搜寻技术
714:意图理解技术
720:结构化数据
730:多层次面向口碑数据
732:特定领域面向口碑信息
734:评论信息
742:地区
743:类型信息
745:影片
750:多层次面向口碑信息
801:使用者
810:接收需求模块
812:知识搜寻技术
814:意图理解技术
820:结构化数据
830:多层次面向口碑数据
832:特定领域面向口碑信息
834:用语信息
900:系统终端
901:系统建构终端
902:面向口碑分析系统
904:面向口碑检视系统
910:处理装置
920:存储装置
921:使用者产生内容数据库
922:巨量语料数据库
923:面向口碑知识数据库
924:领域分类架构数据库
930:连接装置
940:使用者终端
941:处理装置
943:存储装置
945:显示设备
947:连接装置
950:网络
960:网络终端
962:面向口碑知识数据库
964:领域分类架构数据库
具体实施方式
本说明书中「一实施例」或类似表达方式的引用是指结合该具体实施例所述的特定特色、结构、或特性包括在本发明的至少一具体实施例中。因此,在本说明书中,「在一具体实施例中」及类似表达方式的用语的出现未必指相同的具体实施例。
本领域技术人员应当清楚,本发明可实施为计算机系统、方法或作为计算机程序产品的计算机可读媒体。因此,本发明可以实施为各种形式,例如完全的硬件实施例、完全的软件实施例(包含韧体、常驻软件、微程序代码等),或者也可实施为软件与硬件的实施形式,在以下会被称为「电路」、「模块」或「系统」。此外,本发明也可以任何有形的媒体形式实施为计算机程序产品,其具有计算机可使用程序代码存储于其上。
一个或更多个计算机可使用或可读取媒体的组合都可以利用。举例来说,计算机可使用或可读取媒体可以是(但并不限于)电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置、设备或传播媒体。更具体的计算机可读取媒体实施例可以包括下列所示(非限定的例示):由一个或多个连接线所组成的电气连接、可携式的计算机磁盘、硬盘机、随机存取存储器(RAM)、只读存储器(ROM)、可抹除程序化只读存储器(EPROM或闪存)、光纤、可携式光盘片(CD-ROM)、光学存储装置、传输媒体(例如因特网(Internet)或内部网络(intranet)的基础连接)、或磁存储装置。需注意的是,计算机可使用或可读取媒体更可以为纸张或任何可用于将程序行印于其上而使得该程序可以再度被电子化的适当媒体,例如通过光学扫描该纸张或其他媒体,然后再编译、解译或其他合适的必要处理方式,然后可再度被存储于计算机存储器中。在本文中,计算机可使用或可读取媒体可以是任何用于保持、存储、传送、传播或传输程序代码的媒体,以供与其相连接的指令执行系统、装置或设备来处理。计算机可使用媒体可包括其中存储有计算机可使用程序代码的传播数据信号,不论是以基频(baseband)或是部分载波的型态。计算机可使用程序代码的传输可以使用任何适体的媒体,包括(但并不限于)无线、有线、光纤缆线、射频(RF)等。
用于执行本发明操作的计算机程序码可以使用一种或多种程序语言的组合来撰写,包括面向对象程序语言(例如Java、Smalltalk、C++或其他类似者)以及传统程序语言(例如C程序语言或其他类似的程序语言)。
于本发明的相关叙述会参照依据本发明具体实施例的系统、装置、方法及计算机程序产品的流程图及/或方块图来进行说明。当可理解每一个流程图及/或方块图中的每一个方块,以及流程图及/或方块图中方块的任何组合,可以使用计算机程序指令来实施。这些计算机程序指令可供通用型计算机或特殊计算机的处理器或其他可程序化数据处理装置所组成的机器来执行,而指令经由计算机或其他可程序化数据处理装置处理以便实施流程图及/或方块图中所说明的功能或操作。
这些计算机程序指令也可被存储在计算机可读取媒体上,以便指示计算机或其他可程序化数据处理装置来进行特定的功能,而这些存储在计算机可读取媒体上的指令构成一制成品,其内包括的指令可实施流程图及/或方块图中所说明的功能或操作。
计算机程序指令也可被加载到计算机上或其他可程序化数据处理装置,以便于计算机或其他可程序化装置上进行一系统操作步骤,而于该计算机或其他可程序化装置上执行该指令时产生计算机实施程序以达成流程图及/或方块图中所说明的功能或操作。
本发明提出一种特定领域的面向口碑分析与检视系统,其中包含面向口碑处理流程与线上实时查询流程。面向口碑处理流程主要负责网络使用者产生内容(Usergeneratedcontent,UGC)数据的取回,根据不同领域,提取相关口碑词汇并进行口碑极性分析,掌握其所属正负评价,进一步提取面向词汇与其对应的面向类别。并分析口碑与面向词汇对应关系,之后根据不同领域所属的分类架构,将口碑面向分析结果与分类架构进一步整合起来,以提供使用者不同层次的查询需求。
以餐厅为例,可以订出五大面向(气氛、食物、服务、价格、一般),并根据网络使用者产生内容(UGC)数据,提取与餐厅有关的口碑词汇并进行口碑极性分析,掌握其所属正负评价,进一步提取与餐厅有关的面向词汇与其对应的面向类别。并分析口碑与面向词汇对应关系,之后根据与餐厅有关的分类架构,将口碑面向分析结果与分类架构进一步整合起来,以提供使用者进行与餐厅有关的不同层次的查询需求。
在一个实施例中,此特定领域面向口碑分析与检视系统,包含一面向口碑分析系统以及一面向口碑检视系统。面向口碑分析系统例如包括词汇提取分类模块、面向口碑关联模块、以及一口碑多层次汇整模块。
词汇提取分类模块包括一口碑词汇提取分类模块与一面向词汇提取分类模块。口碑词汇提取分类模块从数据库中提取口碑词并进行极性分析,其中口碑词汇提取分类系由机率式联合提取与分类(ProbabilisticJointExtractionandClassification)方式达成。面向词汇提取分类模块从数据库中提取面向词并进行面向类别分析。其中面向词汇提取分类系由机率式联合提取与分类方式达成。面向口碑关联模块用以判断特定领域面向与口碑词汇对应关系。其中是通过自我学习方式(bootstrap),逐步扩充可能的训练数据,最后利用此训练信息,可以训练面向口碑连接分类器,利用该分类器所得的面向口碑连接信息,可用以判断面向与口碑词的关联。
上述面向口碑分析系统还包括一UGC数据处理模块。UGC数据处理模块针对使用者产生内容(UGC)数据,经过断词、词性标注,存储至数据库。
上述面向口碑检视系统在一个实施例中包括接收模块、面向口碑多层次汇整模块与多层次面向口碑检视模块。
接收模块用以接收使用者查询词汇或点击。通过面向口碑多层次汇整模块,将特定领域面向、口碑与领域分类架构信息进一步整合后,提供使用者多层次的查询。例如面向口碑多层次汇整模块接收到使用者查询或点击后,通过面向口碑多层次检视,进行查询。此架构是指领域的分类架构,例如电影会有动作片、剧情片等分类架构。多层次面向口碑检视模块则针对使用者查询词汇或点击,进行查询以得到适当层次面向口碑词汇信息。
底下将配合附图说明本发明多个实施例其中之一或部分的特定领域的面向口碑分析与检视系统。
请参照图1,图1为说明本发明一实施例的一种特定领域的面向口碑分析与检视系统功能方块示意图。此面向口碑分析与检视系统100在一实施例中包含面向口碑分析系统102与面向口碑检视系统104,其中面向口碑检视系统104用以作为线上实时查询使用。
本发明所提出特定领域的面向口碑分析系统102至少包括词汇提取与分类模块120与词汇关联模块130。词汇提取与分类模块120用以执行进行口碑词汇提取分类流程以及面向词汇提取分类流程。此口碑词汇提取分类流程从数据库中取得使用者产生内容(UGC)信息110后提取其中的口碑词与进行极性分析。其中口碑词汇提取分类流程可以由机率式联合提取与分类方式达成。此面向词汇提取分类流程,是从数据库中取得使用者产生内容信息110并提取其中的面向词与进行面向类别分析。面向词汇提取分类流程可以使用机率式联合提取与分类方式达成。而上述的口碑词汇提取分类流程与面向词汇提取分类流程可以在词汇提取与分类模块120的同一个模块同步进行或是先后分别进行,或是分为两个子模块(口碑词汇提取分类模块与面向词汇提取分类模块)同步进行或是先后分别进行,并不受限制。而经过词汇提取与分类模块120处理后输出经过分类的口碑面向词汇。
词汇关联模块130取得经过分类的口碑面向词汇以及来自面向口碑知识库的数据,用以进行面向口碑的关联处理流程。面向口碑的关联处理流程用以判断特定领域面向与口碑词汇之间的对应关系,并输出面向口碑关联数据。而得到的面向口碑关联数据则回传到面向口碑知识数据库140中存储或更新。
面向口碑检视系统104包括多层次面向口碑检视模块150、面向口碑多层次汇整模块152、以及接收模块154。多层次面向口碑检视模块150用以根据来自接收模块154所接收的查询需求,例如使用者查询或点击后,通过面向口碑多层次汇整模块152存取面向口碑知识数据库140与领域分类架构数据库160的信息,进行对应的面向口碑信息显示。此架构是指领域的分类架构,例如电影会有动作片、剧情片等分类架构。多层次面向口碑检视模块150则针对使用者查询词汇或点击,进行查询以得到适当层次面向口碑词汇信息。
在一实施例可以运用于线上实时查询系统或应用程序。线上实时查询系统包含接收模块154,从使用者端接收一个描述用语,并通过面向口碑多层次汇整模块152的汇整后,由多层次信息检视模块150提供适当层次的面向及口碑信息让使用者参考与选择。上述的接收模块154可以内建于面向口碑检视系统104,或是建于如使用者所使用的线上实时查询系统或应用程序,并不以此为限制。面向口碑多层次汇整模块152取得查询需求后即可进行对应的面向口碑信息显示。在一实施例中,面向口碑检视系统104也可以包括一个显示设备,用以显示对应的多层次的面向及口碑信息,也可以将对应于此查询需求的多层次的面向及口碑信息传回给使用者的显示设备,据以显示对应的信息,并非以此为限制。
通过面向口碑检视系统104的多层次面向口碑检视模块150与面向口碑多层次汇整模块152,将特定领域面向、口碑与领域分类架构的信息汇整成为多层次面向口碑检视信息。
依据本实施例的上述系统可实施以及执行于硬件、韧体或安装在硬件如处理器或微处理器的软件或计算机程序码。机器可执行的程序代码存储于记录媒介如光盘、随机存取存储器、软盘、硬盘或磁性光学碟,或可于网络下载原先被存储于远程记录媒介或非暂存式机器可读取媒介且将存储于区域的记录媒介,使得此处所叙述的系统可使用一般用途的计算机或特殊处理器或可程序化的或专用硬件作为存储于记录媒介的软件,例如特殊功能集成电路(ASIC)或可程序化逻辑门阵列(FPGA)。如同本实施例技术领域中的通常知识,当计算机、处理器或硬件实施此处所属的处理方法所存取以及执行的软件或计算机程序码时,计算机、处理器、微处理器控制器或可程序化硬件包括存储器元件如随机存取存储器(RAM)、只读存储器(ROM)、闪存、随身碟等等,可能存储或接收软件或计算机程序码。
本发明一实施例所提出的面向口碑分析与检视系统用以执行例如网络下载流程、UGC数据库、口碑词汇提取分类流程、面向词汇提取分类流程、面向口碑关联处理流程、以及多层次面向口碑检视流程等等。底下将以一实施范例进行说明,请参照图2,图2为说明本发明一实施例的面向口碑分析与检视系统所执行的方法流程示意图。面向口碑分析与检视系统200至少包括面向口碑分析系统202与面向口碑检视系统204。
在此实施例中,面向口碑分析系统202可以包括例如步骤S224的面向口碑词汇提取与分类方法以及步骤S226的面向口碑词汇连接方法。面向口碑检视系统204包括例如步骤S230的多层次面向口碑信息检视步骤。在一实施例中,可以运用于线上实时查询系统或应用程序。线上实时查询系统包含接收需求模块,从使用者端接收一个描述用语,并通过多层次面向口碑检视模块提供适当层次的面向及口碑信息让使用者参考与选择。
步骤S224的面向口碑词汇提取与分类方法所处理的多元词汇数据在此实施例中是经过步骤S220与S222的处理。步骤S220与S222可以包括在面向口碑分析系统202中,或是经由外部系统处理,并非以此为限制。经过步骤S220的中文断词(CWS,ChineseWordSegmentation)与词性标记(POSTagging,PartofSpeechTagging)方法处理UGC数据后得到中文断词与词性标记数据。底下将配合实施范例进行详细说明。
步骤S210,从任何形式的来源经过数据抓取(DataCrawler)步骤而取得使用者产生内容(Usergeneratedcontent,UGC)数据。在一实施例中可以通过因特网(Internet)下载网络UGC数据。并且存储在使用者产生内容数据库240中。
步骤S220,从使用者产生内容数据库240中读取UGC数据,并经过中文断词与词性标记方式处理UGC数据后,得到中文断词与词性标记数据。底下以UGC数据为评论一部电影的描述语料为例进行说明,例如UGC数据为“…属于黑色幽默类型的片子,剪接手法也挺创新,值得推荐…”。此语料经过步骤S220处理之后得到的中文断词与词性标记数据例如“…属于(V)/黑色(Na)/幽默(A)/类型(Na)/的(DE)/片子(Na)/,(COMMA)/剪接(V)/手法(Na)/也(D)/挺(D)/创新(A)/,(COMMA)/值得(V)/推荐(V)…”。上述对于UGC语料断词后所标示的标记,在一实施例中,例如”属于”、“黑色“、“幽默“、“类型“、“的“、“片子“、“,“、“剪接“、“手法“、“也“、“挺“、“创新“、“值得“、“推荐”等等都是属于可能的中文断词。词性标记,例如“V(动词)”、“Na(普通名词)”、“A(形容词)”、“DE(的)”、“COMMA(标点符号中的逗号)”、“D(副词)”等都是属于可能的词性标记。
步骤S222,进行口碑词汇提取分类流程,从使用者产生内容数据库240中提取口碑词并进行极性分析。其中口碑词汇提取分类流程可以由机率式联合提取与分类方式达成。面向词汇提取分类流程,是从使用者产生内容数据库240中提取面向词并进行面向类别分析。面向词汇提取分类流程可以使用机率式联合提取与分类方式达成。其中机率式联合提取与分类,先将词汇信息与分类信息同时表达在标记信息中,再通过序列学习方式例如条件随机场(Conditionalrandomfields),利用前后词汇与分类标记之间的关系,学习最佳标记模型。而上述的口碑词汇提取分类流程与面向词汇提取分类流程可以在同一个模块中同步进行或是先后分别进行,并不受限制。以先前描述的语料为例,转换为例如“黑色幽默(文艺作品类型Genres)”、“剪接手法(视觉听觉)”、“推荐(正面)“、“创新(正面)”等等。在一实施例中,例如黑色幽默(文艺作品类型Genres)”、“剪接手法(视觉听觉)等为面向,“推荐(正面)“、“创新(正面)“等为口碑。
步骤S224,进行面向口碑的关联处理步骤。面向口碑关联步骤S224接收步骤S222所输出经过分类的口碑面向词汇,用以判断特定领域面向与口碑词汇之间的对应关系,并输出面向口碑关联数据。而得到的面向口碑关联数据则输出到面向口碑知识数据库260中存储。
此对应关系可以通过自我学习方式(Bootstrap)逐步扩充训练语料,并利用该语料进行连接关系分类器训练。
在面向口碑检视系统204中,至少包括多层次面向口碑检视步骤S230用以根据接收的查询需求232,存取面向口碑知识数据库260与领域分类架构数据库270的信息,进行对应的面向口碑信息显示。在一实施例中,可以运用于线上实时查询系统或应用程序。线上实时查询系统包含需求接收模块,从使用者端接收一个描述用语,转为此查询需求232,并通过多层次面向口碑检视步骤S230提供适当层次的面向及口碑信息让使用者参考与选择。通过多层次面向口碑检视步骤,根据得到的查询对面向口碑知识数据库260的面向口碑关联数据以及领域分类架构270的分类信息进行存取。通过面向口碑检视系统204,将特定领域面向与口碑知识,根据领域分类架构整合成为多层次面向口碑检视流程,提供对应使用者输入的查询显示适当的面向及口碑信息。此面向口碑检视系统在一实施例中包含线上实时查询。线上实时查询流程,包含接收需求模块,从使用者端接收一个描述用语(例如:三星Note3、台系手机、少年Pie、黑色幽默类电影)。通过多层次面向口碑检视模块,提供适当层次的面向及口碑信息。
请参照图3A-3E,图3A-3E为说明本发明一实施例的一种面向口碑分析中,关于面向口碑词汇提取分类流程示意图。针对图3A的流程步骤搭配图3B-3D内容进行说明。
请参照图3A,面向口碑词汇提取分类流程包括步骤S310-S340。首先,步骤S310中,对多元词组进行标记(Label),例如针对领域收集的语料“不错的爱情片~值得一看”为例,经过人工标记后,得到标记化的数据(Labeleddata),如图3B所示的词汇(或称为窗口)W1~W5,分别为“不错”、“的”、“爱情片”、“~”、以及“值得一看”,这些词汇分别给予不同的标记例如“<正面>”(Positive)、“其他”(Other)、“<A-类型>”(A-Type)、“其他”(Other)、以及“<正面>”(Positive)。上述的标记是根据不同领域加以定义,例如以图3C为例说明,根据电影相关领域的标记包含例如七大类信息(<正面>、<负面>、<A-类型>、<A-剧情>、<A-人物角色>、<A-效果>、A-一般)分别代表电影的正面评价、负面评价、类型、剧情、人物角色、声光效果、一般,但不限于七类,可依据需求而调整标记数量。
接着,如步骤S320,进行特征建构步骤,所用的特征集合例如图3D所述,包含前后词、前后词性标记(POS)、前后词缀、词的长度、以及同义词。前后词例如为前后窗口(W-2~W2)所构成的词,也就是包括前两个字到后两个字的窗口所构成的词的组合。前后词性标记(POS)为例如前后窗口(W-3~W3)所构成的词性,也就是包括前三个字到后三个字的窗口所构成的词的组合。前后词缀例如由前缀(Prefix)与后缀(Suffix)组成的词。
根据步骤S320的特征建构步骤所得到的特征进行步骤S330产生特征功能。此特征功能例如针对特征集合进行特征函数的产生,此函数除了可以是布尔函数,也可以是连续数值函数。根据特征集合所得到的信息如图3E所示,针对语料“不错的爱情片~值得一看”得到的特征词汇W1~W5(“不错”、“的”、“爱情片”、“~”、以及“值得一看”)分别有对应的标记(“<正面>”、“其他”、“<A-类型>”、“其他”、“<正面>”),特征词性标记(POS)分别为(“VA(形容词)”、“DEC(的)”、“NN(名词)”、“PU(符号)”、“VV(动词)”),特征前缀为(“不”、“的”、“爱情”、“~”、“值得”)与后缀为(“错”、“的”、“情片”、“~”、“一看”),特征词长为(“2”、“1”、“3”、“1”、“4”)以及特征同义词为(“美好”、“NA”、“NA”、“NA”、“NA”),其中”NA”代表无特征同义词。在一个实施范例中,特征函数可以函数一、函数二、函数三等等不同的函数其中之一或其组合,但并不以这些特征函数为限制,可以包括由不同特征集合组合所成的函数,且函数值除了0与1之外也可以是连续型数值。
底下以多个函数加以列举说明,但并非以此为限制:
函数一:如果现在特征词汇(Wcurrent)=“爱情片”,并且标记=“<A-类型>”,则函数值为1,否则为0。
函数二:如果现在特征词汇(Wcurrent)=“爱情片”,前一个特征词汇(Wprevious)=“的”,并且标记=<A-类型>,则函数值为1,否则为0。
函数三:如果现在特征词汇(Wcurrent)=“爱情片”,前一个特征词汇(Wprevious)=“的”,下一个特征词汇(Wnext)=“~”,并且标记=<A-类型>,则函数值为1,否则为0。
函数四:如果现在特征词汇(Wcurrent)=“爱情片”,特征词性标记(POS)=“NN”,并且标记=<A-类型>,则函数值为1,否则为0。
最后,如步骤S340,进行标注模块训练(TaggingModelTraining),训练完成后的标注模块,可用来标注面向、口碑词汇以及对应的面向类别与口碑类别。其中标注模型是基于序列学习模型(SequenceLearningBasedApproach)。如隐马尔可夫模型(HiddenMarkovModel)、最大熵马尔可夫模型(MaximumEntropyMarkovmodels)、条件随机场(ConditionalRandomFields)等,但不限于此。
请参照图4,为说明本发明所提出面向口碑分析中,关于面向口碑的关联处理步骤的一个实施范例的图形化模块示意图。在此图形化模块示意图中,X代表特征,也就是可以看见的特征词汇。Y代表隐藏在后与特征关联的面向词、口碑词、面向类别和口碑标记类别。而X(特征)与Y(面向词、口碑词、面向类别和口碑标记类别)之间条件机率为P(y|x),计算式如下:
λk为特征权重,fk为特征函数
yt目前的标记,yt-1为前一个标记,xt则为目前的特征
根据上述的目标函数,我们通过对数线性模式(Log-linearmodel),计算最佳特征权重参数值λk
l(θ)为log-fikefihood,λk为特征权重,N为训练句子数,T为Token。
对数线性模式(Log-linearmodel)是一种数学模式,是采用一个具有此模式多个参数的第一阶多项式演绎法则运算而使得线性回归(linearregression)可实现的函式。一般具有底下的形式:
其中fi(x)变量X的函数的值,一般采用向量的值,而c跟Wi的值是代表此模式的参数。
fk为特征函数,Z为正则化变数,勾regularization变数。
本实施例所提出的实施方法就口碑词汇提取分类、面向词汇提取分类与面向口碑关联分析方面而言,相比于美国专利申请公开案(USPatentAppl.No.20090193328)所提出在口碑词提取方面,其利用文法规则法例如形容词词组,而口碑类别,则是先定义一组种子词汇,再通过语言知识库例如wordnet,所含上下位关系,进行口碑词类别传递,例如美丽、漂亮在wordnet属于同义词,如果美丽属于正面,则漂亮也为正面。其作法属于二阶段作法,而本实施例所提出的方法则是在同一阶段,连同口碑词提取与口碑类别分类一起进行。其面向词则是通过判断是否与口碑词接近的高频N元(n-grams)词汇,若是则为面向词,然而该公开前案并没有提及针对面向词汇进行分类的动作,本实施例则是通过序列学习机制,同时学习提取面向词与面向分类。
相比于公开专利(CN103049435A,浙江工商大学),其中口碑词提取其虽然通过序列学习方式,但其口碑类别却是口碑辞典计算,例如计算词汇在情绪辞典中正负面的频率为权重,正负加总得到词汇的极性。因此属于两阶段方式,而本实施例则是一阶段,上述公开专利是采用面向词提取通过序列学习方式,但是其面向类别则是先人工定义种子词汇,通过自我学习(Boostrap)方式,决定面向类别,因此还是属于两阶段,而本方法则是一阶段。
相比于中国台湾公开专利(TW201115370),其在口碑词提取分类是两阶段,采取序列学习方式提取口碑词汇,其口碑类别则通过分类器,并没有利用序列学习方式同时处理口碑词提取与分类。至于此专利申请案在面向词提取与类别分类上,则是没有特别处理面向词提取,直接将每个词汇进行分类。
相比于美国专利申请公开案(USPatentAppl.No.20120278064A1),其在口碑词提取分类是两阶段,先利用词汇列表,决定口碑词汇,再通过口碑辞典进行口碑词汇分数计算,再根据分数决定正负类别。而面向词汇提取与分类,则是固定的词汇列表与分类,进行字符串比对。与实施例所提出的方式差异甚大。
请参照图5,图5为说明本发明一实施例的一种面向口碑分析中,关于面向口碑词汇关联的实施方法。
在此分类器建构与训练的功能方块示意图中,包括已连接的面向口碑关联对(Pair)数据库510、面向口碑查询数据库520、面向口碑标记文件数据库530、训练片段(Snippets)数据540、正面范例数据550以及反面范例数据552。根据上述的数据所执行的流程步骤包括步骤S511~S557,底下将配合图5说明。
首先,已连接的面向口碑对(Pair)数据库510包括已产生连接的面向口碑关联对(Pair)当成种子连接关系数据库,可以通过人工建立少量或由先前所产生可靠度高的种子连接关系数据库。这些面向口碑关联对例如是(情节,老套)、(场面,壮观)等。在步骤S511中,通过面向口碑查询产生模块(Aspect-SentimentQueryGenerationModel)产生相关面向口碑查询语句,例如:情节NEAR老套,而此“Near”例如为一般查询的靠近或是接近的意思。或是例如:场面NEAR壮观。
由于先前已经通过面向及口碑标记模块将搜集所得的UGC资料进行面向及口碑词汇标记,并且建置为一个面向口碑标记文件数据库530,例如:标记文件为“…好人坏人的情节太过于老套且过程拍得很....钢铁侠2不但剧情更为紧凑、战斗场面更为壮观,笑点更超越首集…”等等,其中包含已经完成标记的面向口碑标记的片段(Snippets)或句子。因此将利用步骤S511所得查询语句,查询此面向口碑标记文件数据库530,将所查到的片段(Snippets)解离或提取出来,如步骤S521。例如通过查询,查询包含有面向、口碑的片段(Snippets)而获得片段或句子为例如“…是一部不错的片子,虽然情节老套,但是画面精美…”这样的片段。
接着,利用所提取出来的训练片段(Snippets)数据540,进行步骤S541的产生自动化训练样本(AutomaticTrainingSample)。以前述的例子为例,可获得正面范例(情节,老套)、(场面,壮观),也可自动获得反面范例(情节,不错的)、(情节,精美)、(画面,老套)等等。所获得的正面(Positive)范例以及反面(Negative)范例训练数据之后,其中,正面范例为已在面向口碑对(Pair)数据库510的面向口碑关联对,反面范例则为不在面向口碑对(Pair)数据库510的面向口碑关联对,经过对这些正面或反面范例进行步骤S551的特征解出(FeatureExtraction)流程后,进行步骤S553,对面向口碑关联分类器进行训练,即可得到一个面向口碑关联分类器(LinkingClassifier),如步骤S555。上述的特征解出流程中所述的特征可包含面向口碑组合之间的文字、词性、符号等等。上述步骤S553的训练可以采用例如取得正面范例和负面范例之后,可以训练一个两类的分类器,其中分类器可以是SVM、贝氏分类器等等。而在步骤S557,利用训练好的面向口碑关联分类器,对于面向口碑标记文件数据库530的语料进行预测,将新得到的结果重新更新至S510。训练后的数据应会存储至面向口碑对(Pair)数据库510。
通过得到的分类器,可以对已建置的面向口碑标记文件数据库530内的面向口碑标记文件中任意的面向口碑关联对(Pair)进行分类(PositiveorNegative),并进而得到新的面向口碑关联对(Pair),并进一步增加训练的数据,接着重复前述步骤S511~S557的步骤,重新训练模块,提升模块准确度。
图5所说明本发明实施例的面向口碑词汇分类流程中分类器建构与训练的实施方法,相比于美国专利申请公开案(USPatentAppl.No.20090193328)所提出传统监督式方式,需要人工大量标记,才可进行面向口碑词汇连接分类器训练,本实施例是采用远程监督(Distantsupervision)技术,通过面向口碑词汇提取与分析步骤所得结果,搭配自动产生训练数据经验法则,自动产生训练语料,即可进行面向口碑词汇连接分类器训练。而相比于美国专利申请公开案(USPatentAppl.No.20120278064A1)仅仅利用文法分析与距离进行面向口碑词汇连接分析,本实施例是使用以分类器为基础的作法,将可得到较高的涵盖率。
而远程监督(Distantsupervision)技术使用方面,如MikeMintz(“DistantSupervisionforRelationExtractionWithoutLabeledData”,MikeMintz,etc.al.2009)等方法用于实体关系提取方面,其中使用大规模知识库如freebase,自动建构出训练语料,与本实施例相比之下,本实施例不需要仰赖大规模知识库,产生大量训练数据。本实施例根据经验法则:句子中除了面向口碑正面范例之外的,其余都转为反面范例。
Alecgo(TwitterSentimentClassificationusingDistantSupervision,Alecgo,etcal.2009),MPurver(ExperimentingwithDistantSupervisionforEmotionClassification,MPurver,2012)相关论文中,运用远程监督(Distantsupervision)技术于Twitter情绪分类,其中通过Twitter数据中特有的图释(emoticons,例如)及主题标记(hashtag,例如#ANGRY,#HAPPY),来产生训练数据的情绪分类之用。而本实施例方法,不需要使用特殊的符号信息,使用少量的人工标记种子数据,搭配上述自动产生训练范例信息的经验法则,自动产生初始训练数据后,再利用自我学习即可获得所需面向口碑连接分类。
请参照图6,图6为说明本发明一实施例的一种特定领域的面向口碑分析与检视系统流程示意图。在此面向口碑分析与检视系统600中,首先,步骤S642,通过各种渠道取得使用者产生内容(UGC)数据并存储在使用者产生内容(UGC)数据库610,并提取并取得实体名称(EntityName)。例如取得电影名称“少年Pi的奇幻漂流”名称。而后步骤S644,针对可能的别名进行侦测,与电影名称“少年Pi的奇幻漂流”名称可能是别名等其他名称,例如可能为“奇幻漂流”或是“少年Pi”等等别名。接着如步骤S646进行实体面向口碑汇整,此汇整的步骤例如包括图2所进行的面向口碑分析方法202中的各步骤等等。
而后如步骤S648,进行多层次面向口碑检视。根据查询需求,存取面向口碑知识数据库620与领域分类架构数据库630的信息,进行对应的面向口碑信息显示,可以运用于线上实时查询系统或应用程序。通过多层次面向口碑检视步骤,根据得到的查询对面向口碑知识数据库620的面向口碑关联数据以及领域分类架构630的分类信息进行存取。通过多层次面向口碑信息检视步骤S648将特定领域面向与口碑知识,根据领域分类架构整合,提供对应使用者输入的查询显示适当的面向及口碑信息。例如使用者端接收一个描述用语(例如:少年Pi的剧情)。通过多层次面向口碑检视模块,提供适当层次的面向及口碑信息。
请参照图7A与7B,图7A与7B说明本发明一实施例的一种特定领域的面向口碑检视流程之一应用范例的示意图。请先参照图7A,首先,根据使用者701的描述语言或是查询的内容,例如“有关海上3D特效片”、“推荐我最近剧情节奏紧凑不无聊的电影片?”或是“有深度的功夫片?”等等查询的内容,由线上实时查询系统的接收需求模块710进行分析,包括运用知识搜寻技术712与意图理解技术714进行搜寻。而此接收需求模块710则是将查询需求传送到本发明实施范例的多层次面向口碑检视模块。多层次面向口碑检视模块则是对口碑知识数据库的面向口碑关联数据以及领域分类架构的分类信息进行存取,找出对应的结构化数据720与多层次面向口碑数据730。
结构化数据720属一般的结构化分类信息,例如若以电影信息为例,可能包括电影名称、类型(科幻、武侠等)、地区或是上映时间。这些信息可以从相关公开信息取得。多层次面向口碑数据730则是经由本发明多个实施例其中之一的特定领域的面向口碑分析流程所建构的信息。例如以电影信息的特定领域为例,本发明实施例将电影相关领域的标记包含例如七大类信息(<正面>、<负面>、<A-类型>、<A-剧情>、<A-人物角色>、<A-效果>、A-一般)分别代表电影的正面评价、负面评价、类型、剧情、人物角色、声光效果、一般,但不限于七类。如多层次面向口碑数据730包括特定领域面向口碑多层次信息732例如角色、类型、视听、剧情、一般,另外还加上相关的评论信息734。在此实施例中,特定领域面向口碑多层次信息732为面向,评论信息734为口碑,因此通过多层次面向口碑检视模块提供适当层次的面向及口碑信息让使用者参考与选择。
请参照图7B,上述多层次面向口碑检视模块提供适当层次的面向及口碑信息让使用者参考与选择,例如包括结构化数据的地区742下一层次的各地区数据(美国、中国台湾等等),以及包括类型信息743的动作片、剧情片、歌舞片等等,以提供使用者选择不同的影片745。除此之外,更提供多层次面向口碑信息750,包括人物角色、剧情、声光效果、类型、一般等等信息,这样建构出不同层次与不同维度(Dimensions)的信息展现,让使用者可以有多种的参考与选择。
请参照图8,图8为说明本发明一实施例的一种特定领域的面向口碑检视流程的另一应用范例的示意图。首先,根据使用者801的描述语言或是查询的内容,例如“新竹市哪一家餐厅有好喝的马丁尼酒?”或是“新竹市中低价位的拉面店?”等等查询的内容,由线上实时查询系统的接收需求模块810进行分析,包括运用知识搜寻技术812与意图理解技术814进行搜寻。而此接收需求模块810则是将查询需求传送到本发明实施范例的多层次面向口碑检视模块。多层次面向口碑检视模块则是对口碑知识数据库的面向口碑关联数据以及领域分类架构的分类信息进行存取,找出对应的结构化数据820与多层次面向口碑数据830。
结构化数据820属一般的结构化分类信息,例如若以餐厅结构化数据为例,则是包括餐厅名称、类型、地址等。这些信息可以从相关公开信息取得。多层次面向口碑数据830则是经由本发明多个实施例其中之一的特定领域的面向口碑分析流程所建构的信息。例如以餐厅信息的特定领域为例,本发明实施例将餐厅相关领域的标记包含例如食物、气氛、服务、价格等等特定领域面向口碑信息832,但不限于此,另外还加上相关的用语信息834。因此通过多层次面向口碑检视模块提供适当层次的面向及口碑信息让使用者参考与选择。这样建构出不同层次与不同维度(Dimensions)的信息展现,让使用者可以有多种的参考与选择。
本发明提出一种特定领域的面向口碑分析与检视系统,用以执行包括面向口碑处理流程与线上实时查询流程。面向口碑处理流程主要负责网络使用者产生内容(Usergeneratedcontent,UGC)数据的取回,根据不同领域,提取相关口碑词汇并进行口碑极性分析,掌握其所属正负评价,进一步提取面向词汇与其对应的面向类别。并分析其口碑与面向词汇对应关系,之后根据不同领域所属的分类架构,将口碑面向分析结果与分类架构进一步整合起来,以提供使用者不同层次的查询需求。上述本发明所提出特定领域的面向口碑分析与特定领域的面向口碑检视系统,运用在同一终端主机中,也可以通过网络(有线或是无线网络)运用在不同的终端主机中,例如特定领域的面向口碑分析运用在一终端,而特定领域的面向口碑检视系统运用在另一终端。
在另一实施范例中,也可以通过一系统建构终端进行面向口碑处理流程,而将得到的数据,例如多层次面向及口碑信息放置在一存储装置,例如云端存储空间中。而特定领域的面向口碑检视系统的则是运用在另一终端或是任何具有浏览功能的手持式装置中。通过手持式装置具有浏览功能的浏览器,线上实时查询系统或是运用程序(APP)则可分析使用者所选择或是输入的查询需求而对应的存取位于网络另一端的多层次面向及口碑信息,并在此手持式装置中显示此多层次面向及口碑信息。
上述的实施范例请参照图9A与图9B,图9A与图9B说明本发明一实施例的一种特定领域的面向口碑分析与检视系统应用范例的系统架构示意图。
请参照图9A,本实施例中的系统终端900配置有例如处理装置910、存储装置920与连接装置930。此存储装置920存储包括使用者产生内容数据库921、巨量语料数据库922、面向口碑知识数据库923与领域分类架构数据库924等等,但并非以为限制。使用者产生内容数据库921、巨量语料数据库922、面向口碑知识数据库923与领域分类架构数据库924也可以存储到外部装置的记忆空间中,而通过连接装置930与外部装置构成通联而进行存取。而处理装置910可以是中央处理电路,根据本实施例技术领域中的通常知识,当计算机、处理器或硬件实施此处所属的处理方法所存取以及执行的软件或计算机程序码时,计算机、处理器、微处理器控制器或可程序化硬件包括存储器元件如随机存取存储器(RAM)、只读存储器(ROM)、闪存、随身碟等等,可能存储或接收软件或计算机程序码。
处理装置910设定用以执行面向口碑分析与检视系统。在一实施例中,面向口碑分析与检视系统包含面向口碑分析系统902与面向口碑检视系统904。面向口碑分析系统902包括词汇提取与分类模块与词汇关联模块。面向口碑检视系统904包括多层次面向口碑检视模块、面向口碑多层次汇整模块、以及接收模块。处理装置910可用以执行上述各模块之流程,各模块流程可参考前述实施例,在此不加赘述。
另外的一使用者终端940包括处理装置941、存储装置943、显示设备945与连接装置947。本实施例中的多层次面向及口碑信息放置在系统终端900的存储装置920中。而使用者终端940则可以配置特定领域的面向口碑检视系统的一部分或是全部。通过使用者终端940具有浏览功能的浏览器,线上实时查询系统可分析使用者所选择或是输入的查询需求而经由网络950对应的存取位于存储装置920的多层次面向及口碑信息,并在此使用者终端940中显示此多层次面向及口碑信息,并在显示设备945中显示,以提供不同层次与不同维度的信息展现,让使用者可以有多种的参考与选择。在另一实施例也可以将本发明实施例所提出的特定领域的面向口碑检视系统配置在系统终端900中,而使用者终端940单纯地将使用者所提出的查询需求经由网络950取得多层次面向及口碑信息,并在使用者终端940的显示设备945中显示。
请参照图9B,本实施例中的系统建构终端901配置有例如处理装置941、存储装置943与连接装置930。此系统建构终端901通过网络950存取位于网络终端960的面向口碑知识数据库962与领域分类架构数据库964等等,但并非以为限制。并完成本发明实施例中的特定领域的面向口碑分析流程,并更新位于网络终端960的面向口碑知识数据库962与领域分类架构数据库964。而另外的一使用者终端940则可通过网络950进行存取位于网络终端960的面向口碑知识数据库962与领域分类架构数据库964,以便取得多层次面向及口碑信息,并在使用者终端940的显示设备945中显示。
Claims (35)
1.一种面向口碑分析与检视系统,其特征在于,包括:
词汇提取与分类模块,用以接收使用者产生内容数据,并据以对该使用者产生内容数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇;以及
词汇关联模块,用以取得该些面向词汇与该些口碑词汇,进行面向口碑关联处理流程,其中该面向口碑关联处理流程用以判断该些面向词汇与该些口碑词汇之间的对应关系,并输出多个面向口碑关联数据,其中,该面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用该面向口碑连结信息产生该些面向口碑关联数据,其中该些面向口碑关联对数量由一面向口碑连接分类器调整。
2.根据权利要求1所述的面向口碑分析与检视系统,其特征在于,还包括:
数据处理模块,用以对该使用者产生内容(UGC)数据进行断词、词性标注以得到中文断词与词性标记数据产生该些面向词汇与该些口碑词汇。
3.根据权利要求1所述的面向口碑分析与检视系统,其中该词汇提取与分类模块包括口碑词汇提取分类模块与面向词汇提取分类模块,其中,
该口碑词汇提取分类模块从该使用者产生内容数据提取该些口碑词汇进行极性分析,其中该口碑词汇提取分类模块是采用机率式联合提取与分类方式进行,
该面向词汇提取分类模块从该使用者产生内容数据提取该些面向词汇并进行面向类别分析,其中该面向词汇提取分类模块采用机率式联合提取与分类方式进行。
4.根据权利要求1所述的面向口碑分析与检视系统,其中该词汇提取与分类模块所进行的该面向口碑词汇提取分类流程包括:
对该使用者产生内容数据的多个词组进行标记;
根据一特征集合对该些词组进行特征建构,以取得该些词组对应的多个特征;
产生至少一特征功能,其中该特征功能是针对该特征集合进行至少一或多个特征函数的产生;
根据该特征函数或该些特征函数的组合而进行标注模块训练,以建立一提取模型,用以由该词汇提取与分类模块根据该提取模型对该使用者产生内容数据进行提取以得到该些面向词汇与该些口碑词汇。
5.根据权利要求4所述的面向口碑分析与检视系统,其中对该使用者产生内容数据的该些词组进行标记是根据使用领域的多个标记定义对该些词组加以标记。
6.根据权利要求4所述的面向口碑分析与检视系统,其中该特征集合包括该些词组的前后词、前后词性标记(POS)、前后词缀、词的长度、以及同义词。
7.根据权利要求4所述的面向口碑分析与检视系统,其中该特征函数是由该特征集合与该些词组的标记产生。
8.根据权利要求4所述的面向口碑分析与检视系统,其中该标注模块训练建立该提取模型是采用序列学习模型,建立该提取模型。
9.根据权利要求1所述的面向口碑分析与检视系统,其中该词汇关联模块使用该面向口碑连接分类器得到该面向口碑连接信息,用以判断该些面向词汇与该些口碑词汇之间的对应关系,并输出该些面向口碑关联数据,并将该些面向口碑关联数据输出存储到面向口碑知识数据库。
10.根据权利要求9所述的面向口碑分析与检视系统,其中该面向口碑连接分类器使用自我学习方式扩充多个训练语料,并利用该些训练语料进行该面向口碑连接分类器的训练。
11.根据权利要求10所述的面向口碑分析与检视系统,其中该面向口碑连接分类器利用种子连接关系数据库取得该些面向口碑关联对,并根据该些面向口碑关联对经由面向口碑查询产生模块产生多个相关面向口碑查询语句,根据该些相关面向口碑查询语句产生多个训练样本,训练该面向口碑连接分类器。
12.根据权利要求11所述的面向口碑分析与检视系统,其中通过面向口碑标记文件数据库取得多笔片段,与经由该面向口碑查询产生模块产生的该些相关面向口碑查询语句比对后取得该些训练样本。
13.根据权利要求9所述的面向口碑分析与检视系统,其中该面向口碑连接分类器是采用自我学习法,从该词汇提取与分类模块所产生的该些面向词汇与该些口碑词汇,以及存储在该面向口碑知识数据库的该些面向口碑关联数据训练该面向口碑连接分类器。
14.根据权利要求1所述的面向口碑分析与检视系统,其特征在于,还包括:
面向口碑检视模块,用以根据查询取得对应该查询的该些面向口碑关联数据,并将取得的对应该查询的该些面向口碑关联数据依照领域分类架构提供多层次面向口碑信息。
15.根据权利要求14所述的面向口碑分析与检视系统,其中,
该词汇关联模块使用面向口碑连接分类器,用以判断该些面向词汇与该些口碑词汇之间的对应关系,并产生该些面向口碑关联数据,并将该些面向口碑关联数据输出存储到面向口碑知识数据库,
该面向口碑检视模块根据该查询对面向口碑知识数据库进行搜寻而取得对应该查询的该些面向口碑关联数据。
16.根据权利要求15所述的面向口碑分析与检视系统,其中该面向口碑检视模块包括:
接收模块,用以接收该查询;以及
展示模块,用以分析该查询并得到查询需求,并根据该查询需求通过该面向口碑检视模块进行搜寻以取得到对应该查询需求的该些面向口碑关联数据。
17.一种面向口碑检视装置,其特征在于,包括:
处理装置;以及
显示设备;
其中,该处理装置设定用以执行词汇提取与分类流程、词汇关联流程、以及多层次面向口碑检视流程,其中,
该词汇提取与分类流程用以接收使用者产生内容数据,并据以对该使用者产生内容数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇,
该词汇关联流程用以取得该些口碑词汇与该些面向词汇,进行面向口碑关联处理流程,其中该面向口碑关联处理流程用以判断该些面向词汇与该些口碑词汇之间的对应关系,并输出多个面向口碑关联数据,其中,该面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用该面向口碑连结信息产生该些面向口碑关联数据,其中该些面向口碑关联对数量由一面向口碑连接分类器调整,
该多层次面向口碑检视流程用以根据查询取得对应该查询的该些面向口碑关联数据,并将取得的对应该查询的该些面向口碑关联数据依照领域分类架构提供多层次面向口碑信息,并依照该领域分类架构在该显示设备上显示该多层次面向口碑信息。
18.根据权利要求17所述的面向口碑检视装置,其中该处理装置更进一步设定用以执行接收流程,以接收该查询后执行该多层次面向口碑检视流程。
19.一种面向口碑检视装置,其特征在于,包括:
处理装置;
显示设备;以及
连接装置,
其中,该处理装置设定用以执行多层次面向口碑检视流程,其中该多层次面向口碑检视流程通过查询取得对应该查询的多个面向口碑关联数据以及领域分类架构资料,根据该领域分类架构数据在该显示设备上显示多层次面向口碑信息,
其中,该处理装置根据该查询通过该连接装置对位于网络终端的面向口碑知识数据库与领域分类架构数据库进行查询与存取后得到该些面向口碑关联数据以及该领域分类架构数据,
而该些面向口碑关联数据是经过对使用者产生内容数据进行面向口碑词汇提取分类流程,产生多个面向词汇与多个口碑词汇,并对该些面向词汇与该些口碑词汇进行面向口碑关联处理流程,以判断该些面向词汇与该些口碑词汇之间的对应关系,并产生该些面向口碑关联数据,其中,该面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用该面向口碑连结信息产生该些面向口碑关联数据,其中,该些面向口碑关联对数量由面向口碑连接分类器调整。
20.一种面向口碑分析与检视方法,其特征在于,包括:
对使用者产生内容数据进行面向口碑词汇提取分类流程,并产生多个面向词汇与多个口碑词汇;以及
对该些面向词汇与该些口碑词汇进行面向口碑关联处理流程,用以判断该些面向词汇与该些口碑词汇之间的对应关系,并输出多个面向口碑关联数据,其中,该面向口碑关联处理流程使用多个面向口碑关联对进行判断并取得面向口碑连结信息,使用该面向口碑连结信息产生该些面向口碑关联数据,其中,该些面向口碑关联对数量由面向口碑连接分类器调整。
21.根据权利要求20所述的面向口碑分析与检视方法,其特征在于,还包括:
对该使用者产生内容(UGC)数据进行断词、词性标注得到中文断词与词性标记数据;以及
对该中文断词与词性标记数据进行词组切割后产生该些面向词汇与该些口碑词汇,并据以产生该些面向词汇与该些口碑词汇。。
22.根据权利要求20所述的面向口碑分析与检视方法,其中面向口碑词汇提取分类流程包括;
从该使用者产生内容数据中提取该些口碑词汇进行极性分析,其中该口碑词汇提取分类模块是采用机率式联合提取与分类方式进行,
该面向词汇提取分类模块从该使用者产生内容数据提取该些面向词汇并进行面向类别分析,其中该面向词汇提取分类模块采用机率式联合提取与分类方式进行。
23.根据权利要求20所述的面向口碑分析与检视方法,其中该面向口碑词汇提取分类流程包括:
对该使用者产生内容数据的多个词组进行标记;
根据特征集合对该些词组进行特征建构,以取得该些词组对应的多个特征;
产生至少一特征功能,其中该特征功能是针对该特征集合进行至少一或多个特征函数的产生;
根据该特征函数或该些特征函数的组合而进行标注模块训练,以建立提取模型,用以根据该提取模型对该使用者产生内容数据进行提取以得到该些面向词汇与该些口碑词汇。
24.根据权利要求23所述的面向口碑分析与检视方法,其中对该使用者产生内容数据的该些词组进行标记是根据使用领域的多个标记定义对该些词组加以标记。
25.根据权利要求24所述的面向口碑分析与检视方法,其中该特征集合包括该些词组的前后词、前后词性标记(POS)、前后词缀、词的长度、以及同义词。
26.根据权利要求24所述的面向口碑分析与检视方法,其中该特征函数是由该特征集合与该些词组的标记产生。
27.根据权利要求24所述的面向口碑分析与检视方法,其中该标注模块训练建立该提取模型是采用机率图论的序列学习模型,建立该提取模型。
28.根据权利要求20所述的面向口碑分析与检视方法,其中该面向口碑关联处理流程还包括:
使用一面向口碑连接分类器,用以判断该些面向词汇与该些口碑词汇之间的对应关系,并产生该些面向口碑关联数据,并将该些面向口碑关联数据输出存储到一面向口碑知识数据库。
29.根据权利要求28所述的面向口碑分析与检视方法,其中该词汇关联模块使用一面向口碑连接分类器,利用该面向口碑分类器得到面向口碑连接信息,用以判断该些面向词汇与该些口碑词汇之间的对应关系,并输出该些面向口碑关联数据,并将该些面向口碑关联数据输出存储到一面向口碑知识数据库。
30.根据权利要求29所述的面向口碑分析与检视方法,其中该面向口碑连接分类器使用自我学习方式扩充多个训练语料,并利用该些训练语料进行该面向口碑连接分类器的训练。
31.根据权利要求30所述的面向口碑分析与检视方法,其中该面向口碑连接分类器利用种子连接关系数据库取得该些面向口碑关联对,并根据该些面向口碑关联对经由一面向口碑查询产生模块产生多个相关面向口碑查询语句,根据该些相关面向口碑查询语句产生多个训练样本,训练该面向口碑连接分类器。
32.根据权利要求31所述的面向口碑分析与检视方法,其中透过面向口碑标记文件数据库取得多笔片段,与经由该面向口碑查询产生模块产生的该些相关面向口碑查询语句比对后取得该些训练样本。
33.根据权利要求20所述的面向口碑分析与检视方法,其特征在于,还包括:
执行面向口碑检视流程,根据查询取得对应该查询的该些面向口碑关联数据,并将取得对应该查询的该些面向口碑关联数据依照领域分类架构提供多层次面向口碑信息。
34.根据权利要求20所述的面向口碑分析与检视方法,其特征在于,还包括:
执行面向口碑检视流程,根据查询取得对应该查询的该些面向口碑关联数据,并将取得对应该查询的该些面向口碑关联数据依照领域分类架构提供多层次面向口碑信息。
35.根据权利要求20所述的面向口碑分析与检视方法,其中该面向口碑检视流程包括:
接收该查询;
分析该查询并得到查询需求,根据该查询需求进行搜寻以取得到对应该查询需求的该些面向口碑关联数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103117177 | 2014-05-15 | ||
TW103117177A TWI553573B (zh) | 2014-05-15 | 2014-05-15 | 面向口碑分析與檢視系統、裝置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095302A true CN105095302A (zh) | 2015-11-25 |
CN105095302B CN105095302B (zh) | 2019-05-17 |
Family
ID=54575752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410211001.0A Active CN105095302B (zh) | 2014-05-15 | 2014-05-19 | 面向口碑分析与检视系统、装置及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105095302B (zh) |
TW (1) | TWI553573B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018205178A1 (zh) * | 2017-05-10 | 2018-11-15 | 曹修源 | 文字探勘衡量系统及方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255803B (zh) * | 2016-12-29 | 2022-03-01 | 北京国双科技有限公司 | 文档情感的判断方法和装置 |
CN109359793B (zh) * | 2018-08-03 | 2020-11-17 | 创新先进技术有限公司 | 一种针对新场景的预测模型训练方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328216B2 (en) * | 2000-07-26 | 2008-02-05 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7720849B2 (en) * | 2005-03-08 | 2010-05-18 | Sony Corporation | Information processing device, information processing method, program, and recording medium |
CN101901230A (zh) * | 2009-05-31 | 2010-12-01 | 国际商业机器公司 | 信息检索方法和用户评论处理方法及其系统 |
CN102054015A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
CN102682045A (zh) * | 2011-03-18 | 2012-09-19 | 财团法人工业技术研究院 | 基于动态语言模型的推荐方法与推荐系统 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
US7987188B2 (en) * | 2007-08-23 | 2011-07-26 | Google Inc. | Domain-specific sentiment classification |
US8799773B2 (en) * | 2008-01-25 | 2014-08-05 | Google Inc. | Aspect-based sentiment summarization |
TW201137632A (en) * | 2010-04-22 | 2011-11-01 | Univ Nat Taiwan | Document analyzing system and document analyzing method thereof in reader and writer emotion analysis |
CN103207855B (zh) * | 2013-04-12 | 2019-04-26 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
-
2014
- 2014-05-15 TW TW103117177A patent/TWI553573B/zh active
- 2014-05-19 CN CN201410211001.0A patent/CN105095302B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328216B2 (en) * | 2000-07-26 | 2008-02-05 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7720849B2 (en) * | 2005-03-08 | 2010-05-18 | Sony Corporation | Information processing device, information processing method, program, and recording medium |
CN101901230A (zh) * | 2009-05-31 | 2010-12-01 | 国际商业机器公司 | 信息检索方法和用户评论处理方法及其系统 |
CN102054015A (zh) * | 2009-10-28 | 2011-05-11 | 财团法人工业技术研究院 | 使用有机物件数据模型来组织社群智能信息的系统及方法 |
CN102682045A (zh) * | 2011-03-18 | 2012-09-19 | 财团法人工业技术研究院 | 基于动态语言模型的推荐方法与推荐系统 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018205178A1 (zh) * | 2017-05-10 | 2018-11-15 | 曹修源 | 文字探勘衡量系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201543393A (zh) | 2015-11-16 |
TWI553573B (zh) | 2016-10-11 |
CN105095302B (zh) | 2019-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210165955A1 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
Ren et al. | Deceptive opinion spam detection using neural network | |
CN106682192B (zh) | 一种基于搜索关键词训练回答意图分类模型的方法和装置 | |
US20190377748A1 (en) | Method and system for sentiment analysis of information | |
CN104572616A (zh) | 文本倾向性的确定方法和装置 | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
Yun et al. | Computationally analyzing social media text for topics: A primer for advertising researchers | |
CN105809186A (zh) | 情感分类的方法及系统 | |
Anvar Shathik et al. | A literature review on application of sentiment analysis using machine learning techniques | |
Shekhawat | Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Li et al. | Text mining of user-generated content (ugc) for business applications in e-commerce: A systematic review | |
Kroon et al. | Beyond counting words: Assessing performance of dictionaries, supervised machine learning, and embeddings in topic and frame classification | |
Xu et al. | LSDSCC: a large scale domain-specific conversational corpus for response generation with diversity oriented evaluation metrics | |
Anupama et al. | Real time Twitter sentiment analysis using natural language processing | |
CN105095302A (zh) | 面向口碑分析与检视系统、装置及方法 | |
Ibrohim et al. | Sentiment analysis for the natural environment: A systematic review | |
Jayasudha et al. | A survey on sentimental analysis of student reviews using natural language processing (NLP) and text mining | |
Sazzed | Influence of language proficiency on the readability of review text and transformer-based models for determining language proficiency | |
Li et al. | Mining implicit intention using attention-based rnn encoder-decoder model | |
Das et al. | Automated pipeline for sentiment analysis of political tweets | |
Wu et al. | Typical opinions mining based on Douban film comments in animated movies | |
Hamzah et al. | Multiclass Intent Classification for Chatbot Based on Machine Learning Algorithm | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
Rai et al. | Identification of landscape preferences by using social media analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |