CN110147432B - 一种基于有限状态自动机的决策搜索引擎实现方法 - Google Patents

一种基于有限状态自动机的决策搜索引擎实现方法 Download PDF

Info

Publication number
CN110147432B
CN110147432B CN201910376290.2A CN201910376290A CN110147432B CN 110147432 B CN110147432 B CN 110147432B CN 201910376290 A CN201910376290 A CN 201910376290A CN 110147432 B CN110147432 B CN 110147432B
Authority
CN
China
Prior art keywords
emotional
words
emotion
document
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910376290.2A
Other languages
English (en)
Other versions
CN110147432A (zh
Inventor
张恒宇
梁冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910376290.2A priority Critical patent/CN110147432B/zh
Publication of CN110147432A publication Critical patent/CN110147432A/zh
Application granted granted Critical
Publication of CN110147432B publication Critical patent/CN110147432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于有限状态自动机的决策搜索引擎实现方法,包括:步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;步骤S3:建立基于词典的情感自动机;步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。本发明的技术方案能够在提供用户相关的检索结果的同时对检索结果进行数据分析和处理,提供给用户对于某个实体的评判结果或情绪状态,以及情感强烈程度的定量分析,以辅助用户对所搜索的问题进行决策。

Description

一种基于有限状态自动机的决策搜索引擎实现方法
技术领域
本发明涉及搜索引擎技术领域,具体而言,尤其涉及一种基于有限状态自动机的决策搜索引擎实现方法。
背景技术
基于决策树分类算法实现搜索引擎优化技术(CN201710046903)根据企业业务确定核心关键词,搜索关键词对应的数据项,处理速度更快、具有很好利用价值、可以快速提升关键词排名、从而达到理想的网站优化目标。
信息推荐方法及装置、搜索引擎系统(CN201811347764)接收用户输入的搜索关键词,确定与所述搜索关键词关联的推荐媒体、以及与所述推荐媒体关联的推荐信息;所述推荐媒体为非广告主题媒体;将所述推荐媒体作为搜索结果展示给用户;在所述推荐媒体被触发时,展现所述推荐信息,提升信息推荐效果。
一种基于用户偏好的智能搜索方法及系统(CN201711073916)对可能影响用户购买商品或服务的重要因素进行细分,为这些重要因素制定评分规则并进行量化打分,搜索引擎建立各类商品和服务的重要因素数据库。当用户输入某商品名称的关键词,搜索引擎就会给出该商品的重要因素列表,用户根据自己的偏好选择若干个重要因素并设定权值,搜索引擎就会根据评分规则和用户设定的权值进行多因素综合评分并按总分排序将结果反馈给用户。
一种基于互联网信息进行销售线索挖掘的方法(CN201811447618)通过深入研究产品的目标客户特征,对目标客户进行多维度的分析,找到目标客户可能出现的地方和场景;通过多种渠道获取线索,不依赖某一种线索来源,多做尝试,提高了销售线索的挖掘途径以及线索数量、质量。
根据决策搜索引擎相关的公开的专利可见,搜索引擎已经对网络的发展和成功产生了巨大的影响,提供了方便访问大量信息的途径,然而,许多现有系统和方法都关注于关于提供信息源列表(例如,到文档、网页的链接)与用户的查询相关,而不考虑用户的最终目标——做出决定。
发明内容
根据上述提出的技术问题,而提供一种基于有限状态自动机的决策搜索引擎实现方法。本发明提出的决策搜索引擎能够在提供用户相关的检索结果的同时,对检索结果进行数据分析和处理,提供给用户对于某个实体(包括产品、服务、个人、组织机构、事件、议题)的评判结果(支持或反对、喜欢或厌恶等)或情绪状态(高兴或悲伤等),以及情感强烈程度的定量分析,以辅助用户对所搜索的问题进行决策。
本发明采用的技术手段如下:
一种基于有限状态自动机的决策搜索引擎实现方法,包括:
步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;
步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;
步骤S3:建立基于词典的情感自动机;
步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;
步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。
进一步地,所述步骤S2中提取的文档集中的情感短语包括:正面评价词、负面评价词、正面情感词、负面情感词以及程度副词,所述情感短语模式为由正面评价词、负面评价词、正面情感词、负面情感词以及程度副词组成的三类短语模式,即评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词。
进一步地,所述步骤S3中建立的情感自动机表示为5元组,具体如下:
(1)状态的非空有穷集合Q;
(2)知网词典中的词语∑,输入文档的短语模式都是∑上的字符串,∑={Y,C},其中,程度级别词语C={E,V,M,S,I,O},Y={B,D},正面词语集合B={P,J},负面词语集合D={N,K};
其中,正面评价词语集合P={p1,p2,…,p3730},共3730个词语;负面评价词语集合N={n1,n2,…,n3116},共3116个词语;正面情感词语集合J={j1,j2,…,j836},共836个词语;负面情感词语集合K={k1,k2,…,k1254},共1254个词语;
所述知网词典中的词语∑还包括:
“极其、最”程度级别词语集合E={e1,e2,…,e69},共69个词语;
“很”程度级别词语集合V={v1,v2,…,v42},共42个词语;
“较”程度级别词语集合M={m1,m2,…,m37},共37个词语;
“稍”程度级别词语集合S={s1,s2,…,s29},共29个词语;
“欠”程度级别词语集合I={i1,i2,…,i12},共12个词语;
“超”程度级别词语集合O={o1,o2,…,o30},共30个词语;
(3)状态转移函数δ,δ为Q×∑→Q;
(4)开始状态S0,所述情感自动机在还未处理输入的时候的状态;
(5)终止状态集合F,接受的语言模式的状态集合;
F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds}
其中,所述情感自动机接受的语言模式为Y、CY和YC,即评价/情感倾向词、程度副词+评价/情感倾向词语和评价/情感倾向词语+程度副词;终止状态Sb,Sd对应接受的语言为Y,即评价/情感倾向词;终止状态Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd对应接受的语言为CY,即程度副词+评价/情感倾向词语;终止状态Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds对应接受的语言为YC,即程度评价/情感倾向词语+副词。
进一步地,所述步骤S4的具体过程如下:
所述情感自动机接受的文档提取短语模式共有18个终止状态,每个终止状态的情感函数值对应接受语言的情感得分,对词典中的正、负倾向性词语分别赋值+1和-1,对程度副词分别赋值为4,3,2,0.5,0.5,2,赋值函数如下:
情感强度赋值函数:f(e∈E)=4;f(v∈V)=3;f(m∈M)=2;f(s∈S)=0.5;f(i∈I)=0.5;f(o∈O)=3;
正向情感赋值函数:f(p∈P)=1;f(j∈J)=1;
负向情感赋值函数:f(n∈N)=-1;f(k∈K)=-1;
由以上赋值函数计算获得终止状态F,F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds},则对应的情感强度计算结果分别为:
r(Sb)=f(b∈B)=1;
r(Sd)=f(d∈B)=-1;
r(Seb)=r(Sbe)=f(e∈E)×f(b∈B)=f(b∈B)×f(e∈E)=4×1=4;
r(Sed)=r(Sde)=f(e∈E)×f(d∈D)=f(d∈D)×f(e∈E)=4×(-1)=-4;
r(Svb)=r(Sbv)=f(v∈V,o∈O)×f(b∈B)=f(b∈B)×f(v∈V,o∈O)=3×1=3;
r(Sed)=r(Sde)=f(v∈V,o∈O)×f(d∈D)=f(d∈D)×f(v∈V,o∈O)=4×(-1)=-3;
r(Smb)=r(Sbm)=f(m∈M,)×f(b∈B)=f(b∈B)×f(m∈M)=2×1=2;
r(Smd)=r(Sdm)=f(m∈M)×f(d∈D)=f(d∈D)×f(m∈M)=2×(-1)=-2;
r(Ssb)=r(Sbs)=f(s∈S,i∈I)×f(b∈D)=f(b∈D)×f(s∈S,i∈I)=0.5×1=0.5;
r(Ssd)=r(Sds)=f(s∈S,i∈I)×f(d∈D)=f(d∈D)×f(s∈S,i∈I)=0.5×(-1)=-0.5;
通过文档提取获得的情感自动机可接受的短语模式:“挺好”、“好的不得了”、“很失望”、“失望至极”所对应的终止状态的情感强度计算结果为:
r(S挺好)=f(挺∈S)×f(好∈B)=0.5×1=0.5;
r(S好的不得了)=f(好∈B)×f(不得了∈E)=1×4=4;
r(很失望)=f(很∈V)×f(失望∈D)=3×(-1)=-3;
r(失望至极)=f(失望∈D)×f(至极∈E)=(-1)×4=-4。
进一步地,所述步骤S5的具体过程如下:
步骤S51:根据情感强度分析分析结果可知每一条文档对应着一个人的观点,文档中则有若干词典中匹配的短语模式;
步骤S52:根据情感自动机识别感情最强烈的短语模式,作为当前文档的情感得分;
步骤S53:计算所有文档的平均情感得分,获得用户所搜索问题的辅助决策结果。
如用户搜索到需要辅助决策问题的n篇相关文档,第i篇文档中提取情感自动机可接受的短语模式m个,对应m个终止状态{S1,S2,…,Sm},第i篇文档的情感强度Pi取短语模式的最大值,即Pi=max{r(S1),r(S1),…,r(S1)}。获得用户搜索到需要辅助决策问题的情感的得分为Fr=(P1+P2+…+Pn)/n。
较现有技术相比,本发明具有以下优点:
1、本发明提供的方法实现简单,特别适合于实现决策搜索引擎中的关键技术,提出了基于词典的词语级情感分析方法,情感自动机接受的语言模式为评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词,通过情感自动机识别文档中的短语模式。
2、本发明提供的方法,基于情感自动机的文档情感强度计算方法,情感自动机接受的短语模式对应一个终止状态,每个终止状态的情感函数值对应短语模式的情感得分,从而获得文档的情感强度。
3、本发明提供的方法中的文档情感强度分析结果辅助用户决策,根据文档情感强度结果的辅助决策方法是统计文档正倾向和负倾向情感得分,根据最终的分值判断文档的情感倾向性。
基于上述理由本发明可在搜索引擎等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明情感自动机结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种基于有限状态自动机的决策搜索引擎实现方法,包括:
步骤S1:根据用户所搜索的问题“电影《指环王》好看吗?”,通过搜索引擎获得760篇相关文档,组成文档集;
步骤S2:根据知网情感词典的文档情感短语模式,提取文档集中的情感短语,包括:正面评价词、负面评价词、正面情感词、负面情感词以及程度副词,所述情感短语模式为由正面评价词、负面评价词、正面情感词、负面情感词以及程度副词组成的三类短语模式,即评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词。提取的结果如下表所示:
主题 正面词语 负面词语 程度副词
电影《指环王》好看吗 2419 352 731
步骤S3:根据知网情感词典,建立情感自动机,建立的情感自动机表示为5元组,具体如下:
(1)状态的非空有穷集合Q;
(2)知网词典中的词语∑,输入文档的短语模式都是∑上的字符串,∑={Y,C},其中,程度级别词语C={E,V,M,S,I,O},Y={B,D},正面词语集合B={P,J},负面词语集合D={N,K};
其中,正面评价词语集合P={p1,p2,…,p3730},共3730个词语;负面评价词语集合N={n1,n2,…,n3116},共3116个词语;正面情感词语集合J={j1,j2,…,j836},共836个词语;负面情感词语集合K={k1,k2,…,k1254},共1254个词语;
所述知网词典中的词语∑还包括:
“极其、最”程度级别词语集合E={e1,e2,…,e69},共69个词语;
“很”程度级别词语集合V={v1,v2,…,v42},共42个词语;
“较”程度级别词语集合M={m1,m2,…,m37},共37个词语;
“稍”程度级别词语集合S={s1,s2,…,s29},共29个词语;
“欠”程度级别词语集合I={i1,i2,…,i12},共12个词语;
“超”程度级别词语集合O={o1,o2,…,o30},共30个词语;
(3)状态转移函数δ,δ为Q×∑→Q;
(4)开始状态S0,所述情感自动机在还未处理输入的时候的状态;
(5)终止状态集合F,接受的语言模式的状态集合;
F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds}
其中,所述情感自动机接受的语言模式为Y、CY和YC,即评价/情感倾向词、程度副词+评价/情感倾向词语和评价/情感倾向词语+程度副词;终止状态Sb,Sd对应接受的语言为Y,即评价/情感倾向词;终止状态Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd对应接受的语言为CY,即程度副词+评价/情感倾向词语;终止状态Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds对应接受的语言为YC,即程度评价/情感倾向词语+副词。
步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;
所述情感自动机接受的文档提取短语模式共有18个终止状态,每个终止状态的情感函数值对应接受语言的情感得分,对词典中的正、负倾向性词语分别赋值+1和-1,对程度副词分别赋值为4,3,2,0.5,0.5,2,赋值函数如下:
情感强度赋值函数:f(e∈E)=4;f(v∈V)=3;f(m∈M)=2;f(s∈S)=0.5;f(i∈I)=0.5;f(o∈O)=3;
正向情感赋值函数:f(p∈P)=1;f(j∈J)=1;
负向情感赋值函数:f(n∈N)=-1;f(k∈K)=-1;
由以上赋值函数计算获得终止状态F,F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds},则对应的情感强度计算结果分别为:
r(Sb)=f(b∈B)=1;
r(Sd)=f(d∈B)=-1;
r(Seb)=r(Sbe)=f(e∈E)×f(b∈B)=f(b∈B)×f(e∈E)=4×1=4;
r(Sed)=r(Sde)=f(e∈E)×f(d∈D)=f(d∈D)×f(e∈E)=4×(-1)=-4;
r(Svb)=r(Sbv)=f(v∈V,o∈O)×f(b∈B)=f(b∈B)×f(v∈V,o∈O)=3×1=3;
r(Sed)=r(Sde)=f(v∈V,o∈O)×f(d∈D)=f(d∈D)×f(v∈V,o∈O)=4×(-1)=-3;
r(Smb)=r(Sbm)=f(m∈M,)×f(b∈B)=f(b∈B)×f(m∈M)=2×1=2;
r(Smd)=r(Sdm)=f(m∈M)×f(d∈D)=f(d∈D)×f(m∈M)=2×(-1)=-2;
r(Ssb)=r(Sbs)=f(s∈S,i∈I)×f(b∈D)=f(b∈D)×f(s∈S,i∈I)=0.5×1=0.5;
r(Ssd)=r(Sds)=f(s∈S,i∈I)×f(d∈D)=f(d∈D)×f(s∈S,i∈I)=0.5×(-1)=-0.5;
通过文档提取获得的情感自动机可接受的短语模式:“挺好”、“好的不得了”、“很失望”、“失望至极”所对应的终止状态的情感强度计算结果为:
r(S挺好)=f(挺∈S)×f(好∈B)=0.5×1=0.5;
r(S好的不得了)=f(好∈B)×f(不得了∈E)=1×4=4;
r(很失望)=f(很∈V)×f(失望∈D)=3×(-1)=-3;
r(失望至极)=f(失望∈D)×f(至极∈E)=(-1)×4=-4。
本实施例中,其中1个文档:“还是觉得指环王最好看,从各方面都是最佳,也是本人最喜欢的一系列电影。”
通过文档提取获得的情感自动机可接受的短语模式:“喜欢”属于正面情感词语,“好看”、“佳”属于正面评价词语“最”属于最强列的程度副词,赋值为4分,则所对应的终止状态的情感强度计算结果为:
r(S最好看)=f(最∈E)×f(好看∈P)=4×1=4;
r(S最佳)=f(最∈E)×f(佳∈P)=4×1=4;
r(S最喜欢)=f(最∈E)×f(喜欢∈J)=4×1=4;
步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。
步骤S51:根据情感强度分析分析结果可知每一条文档对应着一个人的观点,文档中则有若干词典中匹配的短语模式;
步骤S52:根据情感自动机识别感情最强烈的短语模式,作为当前文档的情感得分;
步骤S53:计算所有文档的平均情感得分,获得用户所搜索问题的辅助决策结果。
本实施例中,如用户搜索到需要辅助决策问题的760篇相关文档,第i篇文档中提取情感自动机可接受的短语模式m个,对应m个终止状态{S1,S2,…,Sm},第i篇文档的情感强度Pi取短语模式的最大值,即Pi=max{r(S1),r(S1),…,r(S1)}。获得用户搜索到需要辅助决策问题的情感的得分为Fr=(P1+P2+…+Pn)/n。如下表所示:
主题 正面文档 负面文档 情感得分Fr
电影《指环王》好看吗 584 176 3.4
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种基于有限状态自动机的决策搜索引擎实现方法,其特征在于,包括:
步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;
步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;
步骤S3:建立基于词典的情感自动机;
所述步骤S3中建立的情感自动机表示为5元组,具体如下:
(1)状态的非空有穷集合Q;
(2)知网词典中的词语∑,输入文档的短语模式都是∑上的字符串,∑={Y,C},其中,程度级别词语C={E,V,M,S,I,O},Y={B,D},正面词语集合B={P,J},负面词语集合D={N,K};
其中,正面评价词语集合P={p1,p2,…,p3730},共3730个词语;负面评价词语集合N={n1,n2,…,n3116},共3116个词语;正面情感词语集合J={j1,j2,…,j836},共836个词语;负面情感词语集合K={k1,k2,…,k1254},共1254个词语;
所述知网词典中的词语∑还包括:
“极其、最”程度级别词语集合E={e1,e2,…,e69},共69个词语;
“很”程度级别词语集合V={v1,v2,…,v42},共42个词语;
“较”程度级别词语集合M={m1,m2,…,m37},共37个词语;
“稍”程度级别词语集合S={s1,s2,…,s29},共29个词语;
“欠”程度级别词语集合I={i1,i2,…,i12},共12个词语;
“超”程度级别词语集合O={o1,o2,…,o30},共30个词语;
(3)状态转移函数δ,δ为Q×∑→Q;
(4)开始状态S0,所述情感自动机在还未处理输入的时候的状态;
(5)终止状态集合F,接受的语言模式的状态集合;
F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds}
其中,所述情感自动机接受的语言模式为Y、CY和YC,即评价/情感倾向词、程度副词+评价/情感倾向词语和评价/情感倾向词语+程度副词;终止状态Sb,Sd对应接受的语言为Y,即评价/情感倾向词;终止状态Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd对应接受的语言为CY,即程度副词+评价/情感倾向词语;终止状态Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds对应接受的语言为YC,即程度评价/情感倾向词语+副词;
步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;
步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。
2.根据权利要求1所述的基于有限状态自动机的决策搜索引擎实现方法,其特征在于,所述步骤S2中提取的文档集中的情感短语包括:正面评价词、负面评价词、正面情感词、负面情感词以及程度副词,所述情感短语模式为由正面评价词、负面评价词、正面情感词、负面情感词以及程度副词组成的三类短语模式,即评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词。
3.根据权利要求1所述的基于有限状态自动机的决策搜索引擎实现方法,其特征在于,所述步骤S4的具体过程如下:
所述情感自动机接受的文档提取短语模式共有18个终止状态,每个终止状态的情感函数值对应接受语言的情感得分,对词典中的正、负倾向性词语分别赋值+1和-1,对程度副词分别赋值为4,3,2,0.5,0.5,2,赋值函数如下:
情感强度赋值函数:f(e∈E)=4;f(v∈V)=3;f(m∈M)=2;f(s∈S)=0.5;f(i∈I)=0.5;f(o∈O)=3;
正向情感赋值函数:f(p∈P)=1;f(j∈J)=1;
负向情感赋值函数:f(n∈N)=-1;f(k∈K)=-1;
由以上赋值函数计算获得终止状态F,F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds},则对应的情感强度计算结果分别为:
r(Sb)=f(b∈B)=1;
r(Sd)=f(d∈B)=-1;
r(Seb)=r(Sbe)=f(e∈E)×f(b∈B)=f(b∈B)×f(e∈E)=4×1=4;
r(Sed)=r(Sde)=f(e∈E)×f(d∈D)=f(d∈D)×f(e∈E)=4×(-1)=-4;
r(Svb)=r(Sbv)=f(v∈V,o∈O)×f(b∈B)=f(b∈B)×f(v∈V,o∈O)=3×1=3;
r(Sed)=r(Sde)=f(v∈V,o∈O)×f(d∈D)=f(d∈D)×f(v∈V,o∈
O)=4×(-1)=-3;
r(Smb)=r(Sbm)=f(m∈M,)×f(b∈B)=f(b∈B)×f(m∈M)=2×1=2;
r(Smd)=r(Sdm)=f(m∈M)×f(d∈D)=f(d∈D)×f(m∈M)=2×(-1)=-2;
r(Ssb)=r(Sbs)=f(s∈S,i∈I)×f(b∈D)=f(b∈D)×f(s∈S,i∈I)=0.5×1=0.5;
r(Ssd)=r(Sds)=f(s∈S,i∈I)×f(d∈D)=f(d∈D)×f(s∈S,i∈I)=0.5×(-1)=-0.5;
通过文档提取获得的情感自动机可接受的短语模式:“挺好”、“好的不得了”、“很失望”、“失望至极”所对应的终止状态的情感强度计算结果为:
r(S挺好)=f(挺∈S)×f(好∈B)=0.5×1=0.5;
r(S好的不得了)=f(好∈B)×f(不得了∈E)=1×4=4;
r(S很失望)=f(很∈V)×f(失望∈D)=3×(-1)=-3;
r(S失望至极)=f(失望∈D)×f(至极∈E)=(-1)×4=-4。
4.根据权利要求1所述的基于有限状态自动机的决策搜索引擎实现方法,其特征在于,所述步骤S5的具体过程如下:
步骤S51:根据情感强度分析结果可知每一条文档对应着一个人的观点,文档中则有若干词典中匹配的短语模式;
步骤S52:根据情感自动机识别感情最强烈的短语模式,作为当前文档的情感得分;
步骤S53:计算所有文档的平均情感得分,获得用户所搜索问题的辅助决策结果。
CN201910376290.2A 2019-05-07 2019-05-07 一种基于有限状态自动机的决策搜索引擎实现方法 Active CN110147432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910376290.2A CN110147432B (zh) 2019-05-07 2019-05-07 一种基于有限状态自动机的决策搜索引擎实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376290.2A CN110147432B (zh) 2019-05-07 2019-05-07 一种基于有限状态自动机的决策搜索引擎实现方法

Publications (2)

Publication Number Publication Date
CN110147432A CN110147432A (zh) 2019-08-20
CN110147432B true CN110147432B (zh) 2023-04-07

Family

ID=67594936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376290.2A Active CN110147432B (zh) 2019-05-07 2019-05-07 一种基于有限状态自动机的决策搜索引擎实现方法

Country Status (1)

Country Link
CN (1) CN110147432B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002041191A1 (en) * 2000-11-15 2002-05-23 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN107967261A (zh) * 2017-11-17 2018-04-27 康成投资(中国)有限公司 智能客服中交互式问句语义理解方法
CN109472290A (zh) * 2018-10-11 2019-03-15 南京邮电大学 基于有限状态机的情绪波动模型分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US20150120788A1 (en) * 2013-10-28 2015-04-30 Xerox Corporation Classification of hashtags in micro-blogs
US20150178624A1 (en) * 2013-12-23 2015-06-25 Samsung Electronics Co., Ltd. Electronic system with prediction mechanism and method of operation thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002041191A1 (en) * 2000-11-15 2002-05-23 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN107967261A (zh) * 2017-11-17 2018-04-27 康成投资(中国)有限公司 智能客服中交互式问句语义理解方法
CN109472290A (zh) * 2018-10-11 2019-03-15 南京邮电大学 基于有限状态机的情绪波动模型分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sentiment analysis in twitter using machine learning techniques;Neethu, M S;《2013 Fourth International Conference on Computing, Communications and Networking Technologies (ICCCNT)》;20140130;1-5页 *
面向情感搜索的中文语料分析及其分词;刘浩;《中国优秀硕士论文全文数据库 信息科技辑》;20150415;I138-1286 *

Also Published As

Publication number Publication date
CN110147432A (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
Geetha et al. Improving the performance of aspect based sentiment analysis using fine-tuned Bert Base Uncased model
CN108052583B (zh) 电商本体构建方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
WO2017092622A1 (zh) 法律条文的搜索方法及装置
CN106960001B (zh) 一种检索词的实体链接方法及系统
US20130226859A1 (en) System and Method For Value Significance Evaluation of Ontological Subjects of Networks and The Applications Thereof
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN112380451A (zh) 一种基于大数据的喜好内容推荐方法
KR101326313B1 (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN111782956A (zh) 一种基于用户行为和关键词分类的搜索方法
Jedrzejewski et al. Opinion mining and social networks: A promising match
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
JP5234992B2 (ja) 回答文書分類装置、回答文書分類方法及びプログラム
CN110147432B (zh) 一种基于有限状态自动机的决策搜索引擎实现方法
CN117474631A (zh) 基于电商平台评论的数据挖掘与情感分析的推荐算法
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN108810640B (zh) 一种电视节目的推荐方法
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN108804416B (zh) 基于机器学习的影评情感倾向性分析的训练方法
CN110532538A (zh) 财产纠纷裁判文书关键实体抽取算法
Vanam Sentiment Analysis of Twitter Data Using Big Data Analytics and Deep Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant