CN103678607B - 一种情感标注系统的构建方法 - Google Patents
一种情感标注系统的构建方法 Download PDFInfo
- Publication number
- CN103678607B CN103678607B CN201310689825.4A CN201310689825A CN103678607B CN 103678607 B CN103678607 B CN 103678607B CN 201310689825 A CN201310689825 A CN 201310689825A CN 103678607 B CN103678607 B CN 103678607B
- Authority
- CN
- China
- Prior art keywords
- sentence
- mark
- emotion
- session
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种情感标注系统的构建方法,其特征包括如下步骤:1、在系统工程中新建一个XML源文件,添加篇章节点、段落节点、句子节点和词语节点;2、在系统工程中新建一个前台窗口并添加按钮模块和组件;3、设置会话情感标注窗口和句子情感标注窗口的数值选择范围;4、将已分词文件读入到显示窗口中;5、在文章结构树窗口中添加会话情感按钮以及有序的段落序号按钮;6、分别响应会话情感标注窗口或句子情感标注窗口;7、对会话情感标注窗口或句子情感标注窗口进行标注;8、将标注信息写入XML类中生成与已分词文件的XML标注文件。本发明能从篇章、句子和词语这三个层次对文本进行情感信息标注,从而有效反映文本的情感类型和情感强度。
Description
技术领域
本发明涉及一种人工情感标注系统的构建方法,尤其是针对博客、会话等中文文本的情感标注系统和方法,属于自然语言处理与情感计算领域。
背景技术
文本情感分析是对文本信息进行分析和挖掘,识别出文本中的情感信息。文本情感分析可以提高人机互动系统、语音识别和表情识别的正确率,是自然语言理解和情感计算领域的一个研究热点。在文本情感分析中,较高质量的标注语料是必不可少的研究基础。为了构建较高质量的标注语料,对情感标注系统的研究变得更为重要。
现有技术中,大多数研究者都是对文本进行人工分类,很少有对情感标注系统进行研究。人工分类通常都只标注文本篇章、句子或词语中一个层次,而且对文本和句子进行情感标记时大多只划分积极、消极和中性,没有标注精确的情感类型和情感强度,对词语进行情感标注缺乏对词语上下文的考虑,只标注情感类型,没有标注情感强度。
发明内容
本发明为了克服上述现有技术的不足,提出了一种情感标注系统的构建方法,能从篇章、句子和词语这三个层次对文本进行情感信息标注,从而有效反映文本的情感类型和情感强度。
本发明为解决现有问题的不足之处采用如下技术方案是:
本发明一种情感标注系统的构建方法,是在集成开发环境中新建一个系统工程,所述系统工程包含由原始文件数据库、已分词文件数据库和标注文件数据库构成的文件数据库,利用分词工具在所述原始文件数据库中原始文件的所有词语之后添加分隔符和词性,获得由原始文件、分隔符和词性构成的已分词文件,并将所述已分词文件存入已分词文件数据库,其特点是,所述情感标注系统的构建方法是按如下步骤进行:
步骤1、在所述系统工程中新建一个XML源文件,对所述XML源文件添加篇章节点、段落节点、句子节点和词语节点后转换为XML类;
步骤1.1、在所述XML源文件中添加篇章节点,对所述篇章节点添加篇章子节点,所述篇章子节点包括会话情感类型节点、一级主题节点、二级主题节点和段落节点;
步骤1.2、对所述段落节点添加句子节点;对所述句子节点添加句子属性和句子子节点所述句子子节点包括:句子情感类型、句子序号、主题词、标点符号、句子内容、句子长度、会话行为、主观和客观判断、是否跑题和词语节点;所述词语节点包括由情感关键词、程度副词、否定词、连接词、情感短语、情感主和情感对象构成的词语类别;
步骤1.3、对所述词语节点添加词语属性,所述词语属性包括:词性、词语情感类型、词语的开始位置和结束位置、搭配连词位置。
步骤2、在所述系统工程中新建一个前台窗口,在所述前台窗口中添加按钮模块和组件,所述按钮模块包括打开文件按钮、读入标注文件按钮和确定按钮;所述组件包括显示窗口、文章结构树窗口、会话情感标注窗口和句子情感标注窗口;
步骤3、设置所述会话情感标注窗口和句子情感标注窗口的数值选择范围;
步骤4、将所述已分词文件读入到所述显示窗口中获得所述已分词文件的段落数目和所述段落的句子数目;
步骤4.1、通过识别所述已分词文件中的换行符和段落开始空格将所述原始文件分为若干段落,并对所述段落进行计数获得段落数目;
步骤4.2、通过识别句号、感叹号和问号将所述段落分为若干句子,并对所述句子进行累计获得句子数目。
步骤5、在所述文章结构树窗口中添加会话情感按钮以及根据所述段落数目添加有序的段落序号按钮,在所述段落序号按钮的自身连接路径中根据所述句子数目添加有序的句子序号按钮;
步骤6、根据所述会话情感按钮或句子序号按钮,分别响应会话情感标注窗口或句子情感标注窗口;
步骤7、对所述会话情感标注窗口或句子情感标注窗口进行标注获得情感类型标注信息、一级主题标注信息和二级主题标注信息、句子情感标注表标注信息、词法标注表标注信息、会话行为标注表标注信息、标点符号标注表标注信息、主题显示表标注信息、主客观判断标注信息和是否跑题标注信息;
步骤8、将所述标注信息写入XML类中生成与所述已分词文件的XML标注文件。
本发明情感标注系统的构建方法的特点也在于,
所述步骤2是按如下步骤进行:
步骤2.1、将所述打开文件按钮通过自身访问路径与已分词文件数据库进行连接,将所述读入标注文件按钮通过自身访问路径与标注文件数据库进行连接,所述确定按钮执行保存操作;
步骤2.2、对所述会话情感标注窗口添加会话内容显示表、会话情感标注表和主题标注表,在所述会话情感标注表中添加情感类型标签,所述主题标注表包括一级主题和二级主题,将所述情感类型标签和主题标注表的初始值设置为空;
步骤2.3、对所述句子情感标注窗口添加句子内容显示表、主题显示表、句子情感标注表、词法标注表、会话行为标注表、标点符号标注表、主客观判断标注和是否跑题标注;
步骤2.4、在所述句子情感标注表中添加句子情感类型标签,将所述句子情感标注表的初始值设置为空;
步骤2.5、在所述词法标注表中设置包括词语、所述词语在句中位置、词语类别、词性、情感短语的开始和结束位置、修饰词修饰的词语的开始和结束位置、连接词的搭配连词位置和情感类型标签的列表头;设置所述词法标注表的初始值为空;
步骤2.6、所述会话行为标注表包括会话行为,设置所述会话行为标注表的初始值为空;
步骤2.7、所述标点符号标注表包括符号和所述符号所表达的情感类型,设置所述符号和情感类型的初始值为空;
步骤2.8、所述主客观判断标注包括主观标签和客观标签,设置所述主观标签和客观标签的初始值为空;
步骤2.9、是否跑题标注包括未跑题标签和跑题标签,设置所述未跑题标签和跑题标签的初始值为空。
所述步骤3是按如下步骤进行:
步骤3.1、对所述会话情感标注表的情感类型标签和句子情感标注表的句子情感类型标签分别添加数值选择范围;
步骤3.2、对所述词法标注表中的词语类别添加词语类别选择范围,所述词语类别选择范围包括情感关键词、情感短语、程度副词、否定词、连接词、情感主、情感对象;对所述词法标注表中的情感类型标签添加所述数值选择范围;
步骤3.3、对所述会话行为添加会话行为类别选择范围,所述会话行为类别选择范围包括提问、陈述、确认、问候、感谢、再见;
步骤3.4、对所述标点符号标注表中的情感类型添加情感类别选择范围,所述情感类型选择范围包括高兴、惊讶、悲伤、生气、憎恶和害怕;
步骤3.5、对主客观判断标注标签中的客观标签添加选择范围,所述选择范围包括积极、中性和消极。
所述步骤6是按如下步骤进行:
步骤6.1、将所述会话情感按钮通过自身访问路径与会话情感标注窗口进行连接,将所述已分词文件读取到所述会话情感标注窗口的会话内容显示表;
步骤6.2、将所述句子序号按钮通过自身访问路径与句子情感标注窗口进行连接,将所述已分词文件中的句子读取到所述句子内容显示表;
步骤6.3、将所述句子中的词语按在句子中的顺序依次读取到所述词法标注表中的词语列表头所在的列中,并将所述词语的词性和在句中位置分别读入所述词法标注表中的词性和词语在句中位置列表头所在的列中。
所述步骤8是按如下步骤进行:
步骤8.1、利用JAXB函数包将会话情感标注窗口中情感类型标注信息分别写入所述XML类的会话情感类型节点,一级主题标注信息和二级主题标注信息分别写入所述XML类的一级主题节点和二级主题节点;
步骤8.2、将句子情感标注信息写入所述XML类中句子子节点的句子情感类型,会话行为标注表标注信息写入所述XML类中句子子节点的会话行为,将标点符号标注表标注信息写入XML类中句子子节点的标点符号,将主题显示表标注信息写入XML类中句子子节点的主题词,将主客观判断标注信息写入XML类中句子子节点的主观和客观判断,将是否跑题标注信息写入XML类中句子子节点的是否跑题;
步骤8.3、将词法标注表标注信息写入XML类中词语节点的词语属性;
步骤8.4、所写入XML类的标注信息自动生成所述已分词文件的XML标注文件。
所述情感标注系统的构建方法按如下步骤将XML标注文件的内容读取到前台窗口中:
步骤9.1、通过所述读入标注文件按钮,在标注文件数据库中选择已分词文件的XML标注文件;
步骤9.2、读取所述XML标注文件的篇章节点,将所述篇章子节点中会话情感类型节点读入情感类型标签表,一级主题节点和二级主题节点分别读入主题标注表的一级主题和二级主题;
步骤9.3、读取所述XML标注文件的句子子节点,将所述句子子节点的句子情感类型写入句子情感标注,将所述会话行为写入会话行为标注表,将所述标点符号写入标点符号标注表,将所述主题词写入主题显示表,将所述主观和客观判断写入主客观判断,将所述是否跑题写入是否跑题标注;
步骤9.4、读取所述XML标注文件的词语节点,将所述词语属性写入词法标注表中。
与现有技术相比,本发明的有益效果体现在:
1、本发明将已分词文本分为篇章、句子和词语三个层次处理,提出了一种构建情感标注系统的方法,不仅可以从篇章、段落和词语三个层次进行情感信息标注,而且标注的情感类型和情感强度能有效反映已分词文本的情感信息。
2、本发明标注文件为XML格式,XML文件结构性强,通过XML文件定义了篇章的篇章、段落和词语三个层次的节点,同时定义了子节点和属性,从而提高了标注文件的可读性。
3、本发明新建了前台窗口,不仅将原始文件、句子内容和词语分别读到会话内容显示表、句子内容显示表和词语列表头所在的列中,同时提供了需要标注的情感类型的情感强度选择范围、词语类别、会话行为选择范围,简化了标注操作并且提高了标注系统的规范性。
4、本发明在会话情感标注窗口中添加主题标注表,标注会话的一级主题和二级主题,使标注文件可以用于文本的领域分类,提高了标注文件的可应用范围。
具体实施方式
本发明一种情感标注系统的构建方法是在集成开发环境中新建一个系统工程,系统工程包含由原始文件数据库、已分词文件数据库和标注文件数据库构成的文件数据库,利用分词工具对原始文件数据库中原始文件的所有词语之后添加分隔符和词性,获得由原始文件、分隔符和词性构成的已分词文件,并将已分词文件存入已分词文件数据库。
假设原始文件test1.txt为:
我这几天回家第一件事就是上网查看新闻,关注四川地震情况,一次次地忍不住流泪,为那些可怜的孩子,为那些悲痛欲绝的父母,为那些拼命抢救孩子的战士们。。。
除了捐款,我不知道我还能为他们做些什么?去现场是不可能的,因为还有这里的孩子们离不开我;献血也是没有听到我们这里组织;家里有闲置的衣服被褥,附近也没有组织接受捐驓;唯一可以做的就是捐点钱,这个时候就恨自己不是名人、老板、大款了!
利用分词工具,如中科院的ictclas分词工具,对原始文件test1.txt处理后的已分词文件test1.seg.txt为:
我/r 这/r 几/m 天/q 回家/v 第一/m 件/q 事/n 就/d 是/v 上网/v 查看/v新闻/n ,/w 关注/v 四川/ns 地震/n 情况/n ,/w 一次次/m 地/u 忍/v 不/d 住/v 流泪/v ,/w 为/p 那些/r 可怜/v 的/u 孩子/n ,/w 为/p 那些/r 悲痛欲绝/i 的/u 父母/n ,/w 为/p 那些/r 拼命/d 抢救/v 孩子/n 的/u 战士/n 们/k 。/w 。/w 。/w 。/w
除了/p 捐款/v ,/w 我/r 不/d 知道/v 我还/n 能/v 为/p 他们/r 做/v 些/q 什么/r ?/w 去/v 现场/s 是/v 不/d 可能/v 的/u ,/w 因为/c 还有/v 这里/r 的/u 孩子/n 们/k 离/v 不/d 开/v 我/r ;/w 献血/v 也/d 是/v 没有/v 听到/v 我们/r 这里/r 组织/v ;/w 家里/s 有/v 闲置/v 的/u 衣服/n 被褥/n ,/w附近/f 也/d 没有/d 组织/v 接受/v 捐/v 驓/n ;/w 唯一/b 可以/v 做/v 的/u就/d 是/v 捐/v 点/n 钱/n ,/w 这/r 个/q 时候/n 就/d 恨/v 自己/r 不/d 是/v 名人/n 、/w 老板/n 、/w 大款/n 了/y !/w
在上述已分词文件test1.seg.txt中,“r”、“m”、“q”、“v”和“ns”等字符都是代表词性,“/”为词语和词性的分隔符,并通过“北大计算所词性标注集简表”可以查询获得各种字符代表的词性含义。
情感标注系统的构建方法是按如下步骤进行:
步骤1、在系统工程中新建一个XML源文件,添加篇章节点、段落节点、句子节点和词语节点,并通过引入trang.jar函数包将XML源文件转换为XML Schema框架,并由XML Schema框架将XML源文件转换为XML类;
步骤1.1、在系统工程的代码文件中新建一个XML源文件并导入org.jdom函数包,新建XML源文件是为了定义XML标注文件的格式,导入org.jdom函数包是为了使用函数包中的类来新建对象;
步骤1.2、调用org.jdom函数包中的Document类和Element类在XML源文件中添加篇章节点<Dialogue></Dialogue>,对篇章节点添加篇章子节点,篇章子节点包括会话情感类型节点、一级主题节点、二级主题节点和段落节点;会话情感类型节点包括高兴节点、好奇节点、悲伤节点、害怕节点、生气节点和厌恶节点;
步骤1.3、对段落节点添加句子节点<sentence></sentence>;对句子节点添加句子属性<sentence S="">和句子子节点,句子子节点包括:句子情感类型、句子序号、主题词、标点符号、句子内容、句子长度、会话行为、主观和客观判断、是否跑题和词语节点;句子情感类型包括高兴、好奇、悲伤、害怕、生气和厌恶,词语节点包括由情感关键词、程度副词、否定词、连接词、情感短语、情感主和情感对象构成的词语类别;
步骤1.4、对词语节点添加词语属性,词语属性包括:词性、词语情感类型、词语的开始位置和结束位置、搭配连词位置,词语情感类型包括高兴、好奇、悲伤、害怕、生气和厌恶,假设词语节点的词语类别为情感关键词,情感关键词为高兴,那么有<Keywords start="-1"position="0"end="-1"Surprise="0"Sadness="0"POS="-1"Happiness="0.8"Fear="0"Disgust="0"Anger="0">高兴</Keywords>。
步骤2、在系统工程中新建一个前台窗口,在前台窗口中添加按钮模块和组件;按钮模块包括打开文件按钮、读入标注文件按钮和确定按钮;组件包括显示窗口、文章结构树窗口、会话情感标注窗口和句子情感标注窗口;
步骤2.1、在系统工程的代码文件中导入org.eclipse.jface.dialogs函数包,调用org.eclipse.jface.dialogs函数包中Dialog类新建一个前台窗口;
步骤2.2、将打开文件按钮通过自身访问路径与已分词文件数据库进行连接,使打开文件按钮的响应为在已分词文件数据库中选择分词文件,将读入标注文件按钮通过自身访问路径与标注文件数据库进行连接,使读入标注文件按钮的响应为在标注文件数据库中选择分词文件的XML标注文件,确定按钮执行保存操作,将写入前台窗口的标注信息写入XML标注文件;
步骤2.3、对会话情感标注窗口添加会话内容显示表、会话情感标注表和主题标注表,在会话情感标注表中添加情感类型标签,情感类型标签包括高兴标签、惊讶标签、悲伤标签、生气标签、憎恶标签和害怕标签,主题标注表包括一级主题和二级主题,将情感类型标签和主题标注表的初始值设置为空;
步骤2.4、对句子情感标注窗口添加句子内容显示表、主题显示表、句子情感标注表、词法标注表、会话行为标注表、标点符号标注表、主客观判断标注和是否跑题标注;
步骤2.5、在句子情感标注表中添加句子情感类型标签,句子情感类型标签包括高兴标签、惊讶标签、悲伤标签、生气标签、憎恶标签和害怕标签,将句子情感标注表的初始值设置为空;
步骤2.6、在词法标注表中设置包括词语、词语在句中位置、词语类别、词性、情感短语的开始和结束位置、修饰词修饰的词语的开始和结束位置、连接词的搭配连词位置和情感类型标签的列表头;设置词法标注表的初始值为空;
步骤2.7、会话行为标注表包括会话行为,设置会话行为标注表的初始值为空;
步骤2.8、标点符号标注表包括符号和符号所表达的情感类型,设置符号和情感类型的初始值为空;
步骤2.9、主客观判断标注包括主观标签和客观标签,设置主观标签和客观标签的初始值为空;
步骤2.10、是否跑题标注包括未跑题标签和跑题标签,设置未跑题标签和跑题标签的初始值为空。
步骤3、设置会话情感标注窗口和句子情感标注窗口的数值选择范围;
步骤3.1、对会话情感标注表的情感类型标签和句子情感标注表的句子情感类型标签分别添加数值选择范围,数值选择范围包括0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0,0.0表示没有该类型的情感,数值越大情感强度越强;
步骤3.2、对词法标注表中的词语类别添加词语类别选择范围,词语类别选择范围包括情感关键词、情感短语、程度副词、否定词、连接词、情感主、情感对象;对词法标注表中的情感类型标签添加数值选择范围,数值选择范围包括0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0,0.0表示没有该类型的情感,数值越大情感强度越强;
步骤3.3、对会话行为添加会话行为类别选择范围,会话行为类别选择范围包括提问、陈述、确认、问候、感谢、再见;
步骤3.4、对标点符号标注表中的情感类型添加情感类别选择范围,情感类型选择范围包括高兴、惊讶、悲伤、生气、憎恶和害怕;
步骤3.5、对主客观判断标注标签中的客观标签添加选择范围,选择范围包括积极、中性和消极。
步骤4、通过打开文件按钮将已分词文件读入到显示窗口中获得已分词文件的段落数目和段落的句子数目;
步骤4.1、通过识别已分词文件中的换行符和段落开始空格将原始文件分为若干段落,并对段落进行计数获得段落数目;
步骤4.2、通过识别句号、感叹号和问号将段落分为若干句子,并对句子进行累计获得句子数目。
步骤5、在文章结构树窗口中添加会话情感按钮以及根据段落数目添加有序的段落序号按钮,在段落序号按钮的自身连接路径中根据句子数目添加有序的句子序号按钮,那么段落序号按钮的响应是显示句子序号按钮;
步骤6、根据会话情感按钮或句子序号按钮,分别响应会话情感标注窗口或句子情感标注窗口;
步骤6.1、将会话情感按钮通过自身访问路径与会话情感标注窗口进行连接,将已分词文件读取到会话情感标注窗口的会话内容显示表,那么会话情感按钮的响应是显示会话情感标注窗口,并在会话内容显示表中显示的已分词文本;
步骤6.2、将句子序号按钮通过自身访问路径与句子情感标注窗口进行连接,将已分词文件中的句子读取到句子内容显示表;
步骤6.3、将句子中的词语按在句子中的顺序依次读取到词法标注表中的词语列表头所在的列中,并将词语的词性和在句中位置分别读入词法标注表中的词性和词语在句中位置列表头所在的列中,那么句子序号按钮的响应是显示句子情感标注窗口,并在句子内容显示表中显示的已分词文本,在词法标注表的词语列表头所在列显示词语,在词性和在句中位置所在列表头所在列分别显示词语的词性和在句中位置。
步骤7、对会话情感标注窗口或句子情感标注窗口进行标注获得情感类型标注信息、一级主题标注信息和二级主题标注信息、句子情感标注表标注信息、词法标注表标注信息、会话行为标注表标注信息、标点符号标注表标注信息、主题显示表标注信息、主客观判断标注信息和是否跑题标注信息;
步骤7.1、对会话情感标注窗口的情感类型中各个情感类型标签选择对应的数值,在一级主题标注和二级主题标注表中分别填入对应的一级主题和二级主题,如test1.txt一级主题标注为“自然灾害”,二级主题标注为“地震”,各个情感类型标签的数值标记为高兴0.0、惊讶0.0、悲伤0.9、生气0.0、憎恶0.3和害怕0.2,那么可以得到会话情感标注窗口的情感类型标注信息、一级主题标注信息和二级主题标注信息。
步骤7.2、对句子情感标注窗口的句子情感标注表中各个情感类型标签选择对应的数值,得到句子的情感标注表标注信息;在会话行为标注表中选择句子的会话行为;在标点符号标注表中输入符号或表情,并选择符号或表情表达的情感类型,标点符号标注表只标注有情感的符号和表情,否则不标注;在主题显示表中输入句子的主题;在主客观标注中选择主观或客观,若选择客观则需要选择极性;在是否跑题标注中选择未跑题或跑题;在词法标注表中选择词语的词语类别,并标记该词语的属性,通过这些操作可以得到句子情感标注表标注信息、词法标注表标注信息、会话行为标注表标注信息、标点符号标注表标注信息、主题显示表标注信息、主客观判断标注信息和是否跑题标注信息;
如句子1:我这几天回家第一件事就是上网查看新闻,关注四川地震情况,一次次地忍不住流泪,为那些可怜的孩子,为那些悲痛欲绝的父母,为那些拼命抢救孩子的战士们。。。。
在词法标注表中,对词语“流泪”选择词语类别是情感关键词,对词语类别为情感关键词的词语选择各个情感类型标签的数值;对词语“孩子”、“父母”和“战士”选择词语类别为情感对象,对词语“我”选择词语类别为情感主,对词语类别为情感主或情感对象的词语不需要标注其他信息;假设某个词语的词语类别为程度副词或否定词,需要标注该词语修饰的词语的开始和结束位置;假设某个词语的词语类别为情感短语,则需要标注该词语的开始和结束位置;假设某个词语的词语类别为连接词,则需要判断该词语在句子中是否有搭配连接词,若有搭配连接词,对该词语标注搭配连接词位置。
步骤8、将标注信息写入XML类中生成与已分词文件的XML标注文件。
步骤8.1、利用JAXB函数包将会话情感标注窗口中情感类型标注信息分别写入XML类的会话情感类型节点,一级主题标注信息和二级主题标注信息分别写入XML类的一级主题节点和二级主题节点;
步骤8.2、将句子情感标注信息写入XML类中句子子节点的句子情感类型,会话行为标注表标注信息写入XML类中句子子节点的会话行为,将标点符号标注表标注信息写入XML类中句子子节点的标点符号,将主题显示表标注信息写入XML类中句子子节点的主题词,将主客观判断标注信息写入XML类中句子子节点的主观和客观判断,将是否跑题标注信息写入XML类中句子子节点的是否跑题;
步骤8.3、将词法标注表标注信息写入XML类中词语节点的词语属性,在词法标注表中找到标注了词语类别的词语,在XML类中词语节点的节点名为词语类别,将词语的情感短语的开始和结束位置、修饰词修饰的词语的开始和结束位置、连接词的搭配连词位置和情感类型标签的列表头所在列的标注信息分别写入词语节点的属性中,并将词语写入节点;
步骤8.4、所写入XML类的标注信息自动生成已分词文件的XML标注文件。
9、情感标注系统的构建方法按如下步骤将XML标注文件的内容读取到前台窗口中:
步骤9.1、通过读入标注文件按钮,在标注文件数据库中选择已分词文件的XML标注文件;
步骤9.2、读取XML标注文件的篇章节点,将篇章子节点中会话情感类型节点读入情感类型标签表,一级主题节点和二级主题节点分别读入主题标注表的一级主题和二级主题;
步骤9.3、读取XML标注文件的句子子节点,将句子子节点的句子情感类型写入句子情感标注,将会话行为写入会话行为标注表,将标点符号写入标点符号标注表,将主题词写入主题显示表,将主观和客观判断写入主客观判断,将是否跑题写入是否跑题标注;
步骤9.4、读取XML标注文件的词语节点,将词语属性写入词法标注表中,在词法标注表中找到节点中的词语,标注词语类别为词语节点的节点名,将词语节点的属性写入词法标注表词语的情感短语的开始和结束位置、修饰词修饰的词语的开始和结束位置、连接词的搭配连词位置和情感类型标签的列表头所在列中。
Claims (6)
1.一种情感标注系统的构建方法,是在集成开发环境中新建一个系统工程,所述系统工程包含由原始文件数据库、已分词文件数据库和标注文件数据库构成的文件数据库,利用分词工具在所述原始文件数据库中原始文件的所有词语之后添加分隔符和词性,获得由原始文件、分隔符和词性构成的已分词文件,并将所述已分词文件存入已分词文件数据库,其特征是,所述情感标注系统的构建方法是按如下步骤进行:
步骤1、在所述系统工程中新建一个XML源文件,对所述XML源文件添加篇章节点、段落节点、句子节点和词语节点后转换为XML类;
步骤1.1、在所述XML源文件中添加篇章节点,对所述篇章节点添加篇章子节点,所述篇章子节点包括会话情感类型节点、一级主题节点、二级主题节点和段落节点;
步骤1.2、对所述段落节点添加句子节点;对所述句子节点添加句子属性和句子子节点,所述句子子节点包括:句子情感类型、句子序号、主题词、标点符号、句子内容、句子长度、会话行为、主观和客观判断、是否跑题和词语节点;所述词语节点包括由情感关键词、程度副词、否定词、连接词、情感短语、情感主和情感对象构成的词语类别;
步骤1.3、对所述词语节点添加词语属性,所述词语属性包括:词性、词语情感类型、词语的开始位置和结束位置、搭配连词位置;
步骤2、在所述系统工程中新建一个前台窗口,在所述前台窗口中添加按钮模块和组件,所述按钮模块包括打开文件按钮、读入标注文件按钮和确定按钮;所述组件包括显示窗口、文章结构树窗口、会话情感标注窗口和句子情感标注窗口;
步骤3、设置所述会话情感标注窗口和句子情感标注窗口的数值选择范围;
步骤4、将所述已分词文件读入到所述显示窗口中获得所述已分词文件的段落数目和所述段落的句子数目;
步骤4.1、通过识别所述已分词文件中的换行符和段落开始空格将所述原始文件分为若干段落,并对所述段落进行计数获得段落数目;
步骤4.2、通过识别句号、感叹号和问号将所述段落分为若干句子,并对所述句子进行累计获得句子数目;
步骤5、在所述文章结构树窗口中添加会话情感按钮以及根据所述段落数目添加有序的段落序号按钮,在所述段落序号按钮的自身连接路径中根据所述句子数目添加有序的句子序号按钮;
步骤6、根据所述会话情感按钮或句子序号按钮,分别响应会话情感标注窗口或句子情感标注窗口;
步骤7、对所述会话情感标注窗口或句子情感标注窗口进行标注获得情感类型标注信息、 一级主题标注信息和二级主题标注信息、句子情感标注表标注信息、词法标注表标注信息、会话行为标注表标注信息、标点符号标注表标注信息、主题显示表标注信息、主客观判断标注信息和是否跑题标注信息;
步骤8、将所述标注信息写入XML类中生成与所述已分词文件的XML标注文件。
2.根据权利要求1所述的情感标注系统的构建方法,其特征在于,所述步骤2是按如下步骤进行:
步骤2.1、将所述打开文件按钮通过自身访问路径与已分词文件数据库进行连接,将所述读入标注文件按钮通过自身访问路径与标注文件数据库进行连接,所述确定按钮执行保存操作;
步骤2.2、对所述会话情感标注窗口添加会话内容显示表、会话情感标注表和主题标注表,在所述会话情感标注表中添加情感类型标签,所述主题标注表包括一级主题和二级主题,将所述情感类型标签和主题标注表的初始值设置为空;
步骤2.3、对所述句子情感标注窗口添加句子内容显示表、主题显示表、句子情感标注表、词法标注表、会话行为标注表、标点符号标注表、主客观判断标注和是否跑题标注;
步骤2.4、在所述句子情感标注表中添加句子情感类型标签,将所述句子情感标注表的初始值设置为空;
步骤2.5、在所述词法标注表中设置包括词语、所述词语在句中位置、词语类别、词性、情感短语的开始和结束位置、修饰词修饰的词语的开始和结束位置、连接词的搭配连词位置和情感类型标签的列表头;设置所述词法标注表的初始值为空;
步骤2.6、所述会话行为标注表包括会话行为,设置所述会话行为标注表的初始值为空;
步骤2.7、所述标点符号标注表包括符号和所述符号所表达的情感类型,设置所述符号和情感类型的初始值为空;
步骤2.8、所述主客观判断标注包括主观标签和客观标签,设置所述主观标签和客观标签的初始值为空;
步骤2.9、是否跑题标注包括未跑题标签和跑题标签,设置所述未跑题标签和跑题标签的初始值为空。
3.根据权利要求2所述的情感标注系统的构建方法,其特征在于,所述步骤3是按如下步骤进行:
步骤3.1、对所述会话情感标注表的情感类型标签和句子情感标注表的句子情感类型标签分别添加数值选择范围;
步骤3.2、对所述词法标注表中的词语类别添加词语类别选择范围,所述词语类别选择范 围包括情感关键词、情感短语、程度副词、否定词、连接词、情感主、情感对象;对所述词法标注表中的情感类型标签添加所述数值选择范围;
步骤3.3、对所述会话行为添加会话行为类别选择范围,所述会话行为类别选择范围包括提问、陈述、确认、问候、感谢、再见;
步骤3.4、对所述标点符号标注表中的情感类型添加情感类别选择范围,所述情感类型选择范围包括高兴、惊讶、悲伤、生气、憎恶和害怕;
步骤3.5、对主客观判断标注标签中的客观标签添加选择范围,所述选择范围包括积极、中性和消极。
4.根据权利要求2所述的情感标注系统的构建方法,其特征在于,所述步骤6是按如下步骤进行:
步骤6.1、将所述会话情感按钮通过自身访问路径与会话情感标注窗口进行连接,将所述已分词文件读取到所述会话情感标注窗口的会话内容显示表;
步骤6.2、将所述句子序号按钮通过自身访问路径与句子情感标注窗口进行连接,将所述已分词文件中的句子读取到所述句子内容显示表;
步骤6.3、将所述句子中的词语按在句子中的顺序依次读取到所述词法标注表中的词语列表头所在的列中,并将所述词语的词性和在句中位置分别读入所述词法标注表中的词性和词语在句中位置列表头所在的列中。
5.根据权利要求2所述的情感标注系统的构建方法,其特征在于,所述步骤8是按如下步骤进行:
步骤8.1、利用JAXB函数包将会话情感标注窗口中情感类型标注信息分别写入所述XML类的会话情感类型节点,一级主题标注信息和二级主题标注信息分别写入所述XML类的一级主题节点和二级主题节点;
步骤8.2、将句子情感标注信息写入所述XML类中句子子节点的句子情感类型,会话行为标注表标注信息写入所述XML类中句子子节点的会话行为,将标点符号标注表标注信息写入XML类中句子子节点的标点符号,将主题显示表标注信息写入XML类中句子子节点的主题词,将主客观判断标注信息写入XML类中句子子节点的主观和客观判断,将是否跑题标注信息写入XML类中句子子节点的是否跑题;
步骤8.3、将词法标注表标注信息写入XML类中词语节点的词语属性;
步骤8.4、所写入XML类的标注信息自动生成所述已分词文件的XML标注文件。
6.根据权利要求2所述的情感标注系统的构建方法,其特征在于,所述情感标注系统的构建方法按如下步骤将XML标注文件的内容读取到前台窗口中:
步骤9.1、通过所述读入标注文件按钮,在标注文件数据库中选择已分词文件的XML标注文件;
步骤9.2、读取所述XML标注文件的篇章节点,将所述篇章子节点中会话情感类型节点读入情感类型标签表,一级主题节点和二级主题节点分别读入主题标注表的一级主题和二级主题;
步骤9.3、读取所述XML标注文件的句子子节点,将所述句子子节点的句子情感类型写入句子情感标注,将所述会话行为写入会话行为标注表,将所述标点符号写入标点符号标注表,将所述主题词写入主题显示表,将所述主观和客观判断写入主客观判断,将所述是否跑题写入是否跑题标注;
步骤9.4、读取所述XML标注文件的词语节点,将所述词语属性写入词法标注表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310689825.4A CN103678607B (zh) | 2013-12-16 | 2013-12-16 | 一种情感标注系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310689825.4A CN103678607B (zh) | 2013-12-16 | 2013-12-16 | 一种情感标注系统的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678607A CN103678607A (zh) | 2014-03-26 |
CN103678607B true CN103678607B (zh) | 2016-08-31 |
Family
ID=50316152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310689825.4A Expired - Fee Related CN103678607B (zh) | 2013-12-16 | 2013-12-16 | 一种情感标注系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678607B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408035B (zh) * | 2014-12-15 | 2018-04-03 | 北京国双科技有限公司 | 词语情感类型的分析方法和装置 |
CN108363753B (zh) * | 2018-01-30 | 2020-05-19 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN109509486B (zh) * | 2018-07-31 | 2021-04-09 | 苏州大学 | 一种体现情感细节信息的情感语料库构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN102646128A (zh) * | 2012-03-06 | 2012-08-22 | 北京航空航天大学 | 一种基于xml的情感词词性标注的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2019361A1 (en) * | 2007-07-26 | 2009-01-28 | Siemens Aktiengesellschaft | A method and apparatus for extraction of textual content from hypertext web documents |
-
2013
- 2013-12-16 CN CN201310689825.4A patent/CN103678607B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN102646128A (zh) * | 2012-03-06 | 2012-08-22 | 北京航空航天大学 | 一种基于xml的情感词词性标注的方法 |
Non-Patent Citations (2)
Title |
---|
Automatic Annotation of Word Emotion in Sentences Based on Ren-CECps;Changqin Quan 等,;《International Conference on Language Resources and Evaluation》;20100523;全文 * |
Construction of a blog emotion corpus for Chinese emotional expression;Changqin Quan 等,;《Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics》;20090807;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103678607A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809176B (zh) | 藏语实体关系抽取方法 | |
WO2016199160A2 (en) | Language processing and knowledge building system | |
CN104991891A (zh) | 一种短文本特征提取方法 | |
CN100405362C (zh) | 一种汉语口语解析方法及装置 | |
CN104021198A (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN103678607B (zh) | 一种情感标注系统的构建方法 | |
Wijeratne et al. | Natural language processing for government: Problems and potential | |
CN109086285B (zh) | 基于语素的汉语智能处理方法和系统及装置 | |
Van Holt et al. | Rapid ethnographic assessment for cultural mapping | |
CN109033061A (zh) | 排版方法和排版装置 | |
CN106202008B (zh) | 一种MySQL数据库结构化文档生成方法及装置 | |
Jabbarin et al. | Constructing use case models from Arabic user requirements in a semi-automated approach | |
Bajwa et al. | A controlled natural language interface to class models | |
Fawcett | The cultural classification of ‘things’ | |
Wang et al. | Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics. | |
Bouda et al. | POIO API-An annotation framework to bridge language documentation and natural language processing | |
Amirhosseini et al. | Quantitative evaluation of simplicity invisible domain in Islamic knowledge organizations | |
Fromont | Toward a format-neutral annotation store | |
JP5982162B2 (ja) | 校閲支援システムおよびプログラム | |
CN112989068B (zh) | 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统 | |
Xiong et al. | Ontology description of chinese character semantics | |
Cai et al. | Re-introduction to Tibetan Case Structure and Its Grammatical Functions | |
Andrade | Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas-sification model | |
Gärtner et al. | Making Corpus Querying Ready for the Future: Challenges and Concepts. | |
Strunk | Enriching a Treebank to Investigate Relative Clause Extraposition in German. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160831 Termination date: 20191216 |