CN109918632B - 基于场景模板的文献撰写辅助方法 - Google Patents
基于场景模板的文献撰写辅助方法 Download PDFInfo
- Publication number
- CN109918632B CN109918632B CN201910143664.6A CN201910143664A CN109918632B CN 109918632 B CN109918632 B CN 109918632B CN 201910143664 A CN201910143664 A CN 201910143664A CN 109918632 B CN109918632 B CN 109918632B
- Authority
- CN
- China
- Prior art keywords
- industry
- professional
- list
- vocabulary
- scene template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于场景模板的文献撰写辅助方法,包括P101,收集各类行业资料,根据行业分类,提取各类行业内专业词汇,生成初始场景模板;P102,基于初始场景模板、行业资料、设定算法,计算得到待分类标记专业词汇与所属行业的关联概率;P103,利用步骤P102得到的关联概率修正初始场景模板,生成应用场景模板;P104,根据专业词汇属于某一行业的概率大小,设置一概率阈值λ,根据应用场景模板的内容,大于概率阈值λ的词汇构建倒排索引;P105,根据用户的输入,找到索引词汇,将索引词汇对应的关联资料返回至用户。本发明结合搜索引擎和自然语言处理的标记技术,把自然语言标记技术用于词语行业分类,构建了一种特有的辅助撰写技术,维护简单,方便实用。
Description
技术领域
本发明涉及数据管理技术领域,更具体地说,它涉及一种基于场景模板的文献撰写辅助方法及系统。
背景技术
在一些专业文献的编辑撰写过程中,文献编辑者通常需要查阅许多相关的文档素材才能快速准确地编辑撰写出相应的文献,如专利文献、科技文献等。
为了能够加快撰写的速度,现有技术中,编辑者常常将编辑某一类文献所需要用到的文档素材整理放置到一个对应的资料库中,在编辑该类型文献时,可以从上述资料库中快速地查找并提取出所需的文献素材。
如图1所示,传统的撰写辅助方法需要人为的去维护一个资料库,在资料库中录入一些对撰写有帮助的段落、语句或词条,然后把这些内容进行分类。后期用户按照所需要的分类进行查询,从查询的结果中筛选想要的内容。上述数据存储查找并提取的撰写辅助方式对资料库的要求极高,需要实时更新数据且数据相互关联,分类判定十分冗杂。但由于资料库需要由人工维护,因而工作量巨大,而且在诸如专利文献等涉及专业领域较多的文献撰写过程中,会涉及到各行各业的知识,亦即意味着资料库的数据量以及维护的要求会非常高,可行性差,在实践中利用上述撰写辅助方法对于编辑撰写的帮助不大。
发明内容
针对实际运用中常用的撰写辅助方法不适用于专利文献等科技文献的辅助撰写这一问题,本发明目的一在于提出一种基于场景模板的文献撰写辅助方法,具有维护方便、查询快捷,实用性高的优点。
具体方案如下:
一种基于场景模板的文献撰写辅助方法,包括,
P101,场景模板构建步骤,收集各类行业资料,根据行业分类,提取各类行业内的专业词汇,关联存储上述专业词汇、上述专业词汇与所对应行业的关联概率、以及与上述专业词汇相关联的资料列表,生成初始场景模板;
P102,分类标记步骤,基于上述初始场景模板以及各类行业资料,查找某一行业资料中与目标专业词汇相关的其它词汇,结合设定算法,计算得到待分类标记的专业词汇与所属行业的关联概率,标记上述专业词汇属于某一行业的关联概率;
P103,场景模板修正步骤,利用步骤P102得到的关联概率修正步骤P101中的初始场景模板,生成修正后的应用场景模板;
P104,构建倒排索引步骤,根据专业词汇属于某一行业的概率大小,设置一个概率阈值λ,根据应用场景模板的内容,大于上述概率阈值λ的词汇构建倒排索引;
P105,用户查询步骤,根据用户的输入,找到对应的索引词汇,将索引词汇对应的关联资料返回至用户。
通过上述技术方案,可以不断地利用初始场景模板对新的专业词汇加以定义且定义方式更为简便快捷,在查找与专业词汇相关的专业资料时也更加精准快捷。
进一步的,步骤P101中,初始场景模板中,所述专业词汇、关联概率以及资料列表的存储结构如下:
N1:<Vo_1_1,Pr_1_1,list_1_1>,<Vo_1_2,Pr_1_2,list_1_2>,、、,<Vo_1_n-1,Pr_1_n-1,list_1_n-1>,<Vo_1_n,Pr_1_n,list_1_n>;
N2:<Vo_2_1,Pr_2_1,list_2_1>,<Vo_2_2,Pr_2_2,list_2_2>,、、,<Vo_2_n-1,Pr_2_n-1,list_2_n-1>,<Vo_2_n,Pr_2_n,list_2_n>;
、、、
Nm:<Vo_m_1,Pr_m_1,list_m_1>,<Vo_m_2,Pr_m_2,list_m_2>,、、,<Vo_m_n-1,Pr_m_n-1,list_m_n-1>,<Vo_m_n,Pr_m_n,list_m_n>;
其中,上述词汇表中,N表示行业类型,Vo表示专业词汇,Pr表示上述专业词汇与上述行业类型之间关联概率的大小,list表示与上述专业词汇相关联的资料列表;
Vo_m_n表示第m个行业类型中第n个专业词汇,Pr_m_n表示第m个行业类型中第n个专业词汇与第m个行业类型的关联概率大小,list_m_n表示与上述第m个行业类型中第n个专业词汇相关联的资料列表。
进一步的,分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率,具体包括,
P1021,对步骤P101中收集的各类行业资料内容进行分词处理;
P1022,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,结合步骤P101中生成的初始场景模板,将计算第M个目标专业词汇属于某个行业的关联概率转化为计算前M-2个相关词汇属于某个行业的关联概率,计算条件概率:
P(Wt|W1,W2,、、、Wt-1);
其中,前M-2个词语的关联概率通过查询初始场景模板获得;
P1023,经上述步骤P1022计算得到第M个目标专业词汇属于某个行业的关联概率,标记为Pc(M1,M2,、、、,Mm)。
通过上述技术方案,利用目标专业词汇上下文的相关专业词汇,可以推知出上述目标专业词汇与设定类型行业的关联概率,重复上述过程,可以使得专业词汇与行业的关联概率判定更为准确。
进一步的,场景模板修正步骤进一步包括:
P1031,将分类标记步骤P102得到的某专业词汇的概率组Pc(M1,M2,、、、,Mm)与原场景模板中对应记载的关联概率组Pr(M1,M2,、、、,Mn)取叠加均值,获得新的场景模板概率组Prc(M1,M2,、、、,Mm);
P1032,将上述运算后的概率数组经过平滑函数输出,公式如下:
其中D表示第M个目标专业词汇所在的文档,C表示所有文档集合;
P1033,循环分类标记步骤P102和场景模板修正步骤P103,直到处理完成所有的行业资料,生成修正后的应用场景模板。
进一步的,所述行业资料包括专业文章、专利文献、科技文献、书籍资料。
进一步的,步骤P1021,对步骤P101中收集的各类行业资料内容进行分词处理,包括:利用IK分词器对行业资料进行分词处理。
进一步的,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,其中M值设定为3。
与现有技术相比,本发明结合搜索引擎技术和自然语言处理的标记技术,同时,把自然语言的标记技术用于词语行业分类,构建了一种特有的专利辅助撰写技术。发明利用数学模型对现实问题建模,具有比较高的严谨性。
附图说明
图1为现有技术中撰写辅助方法的示意图;
图2为本发明的方法的示意图;
图3为本发明初始场景模板中词汇表的示意图;
图4为本发明中专业词汇标注的示意图;
图5为本发明中利用平滑函数处理词语标记的示意图;
图6为本发明中构建的词语倒排索引示意图。
具体实施方式
下面结合实施例及图对本发明作进一步的详细说明,但本发明的实施方式不仅限于此。
一种基于场景模板的文献撰写辅助方法,如图1所示,包括,场景模板构建步骤P101、分类标记步骤P102、场景模板修正步骤P103、构建倒排索引步骤P104以及用户查询步骤P105。
结合图2所示,P101,场景模板构建步骤:收集各类行业资料,根据行业分类,提取各类行业内的专业词汇,关联存储上述专业词汇、上述专业词汇与所对应行业的关联概率、以及与上述专业词汇相关联的资料列表,生成初始场景模板。上述行业资料包括专业文章、专利文献、科技文献、书籍资料等。专业词汇包括该专业领域中常见的词汇,如在球类运动领域中,篮球、足球、门将、球衣等则可以认定为与球类运动专业相关联。在专利文献的撰写中,化学类、机械类、电学类案件的专业词汇不同,亦可进行独立分类。
如图3所示,步骤P101,初始场景模板中,所述专业词汇、关联概率以及资料列表的存储结构如下:
N1:<Vo_1_1,Pr_1_1,list_1_1>,<Vo_1_2,Pr_1_2,list_1_2>,、、,<Vo_1_n-1,Pr_1_n-1,list_1_n-1>,<Vo_1_n,Pr_1_n,list_1_n>;
N2:<Vo_2_1,Pr_2_1,list_2_1>,<Vo_2_2,Pr_2_2,list_2_2>,、、,<Vo_2_n-1,Pr_2_n-1,list_2_n-1>,<Vo_2_n,Pr_2_n,list_2_n>;
、、、
Nm:<Vo_m_1,Pr_m_1,list_m_1>,<Vo_m_2,Pr_m_2,list_m_2>,、、,<Vo_m_n-1,Pr_m_n-1,list_m_n-1>,<Vo_m_n,Pr_m_n,list_m_n>;
其中,上述词汇表中,N表示行业类型,Vo表示专业词汇,Pr表示上述专业词汇与上述行业类型之间关联概率的大小,list表示与上述专业词汇相关联的资料列表。
Vo_m_n表示第m个行业类型中第n个专业词汇,Pr_m_n表示第m个行业类型中第n个专业词汇与第m个行业类型的关联概率大小,list_m_n表示与上述第m个行业类型中第n个专业词汇相关联的资料列表,上述资料列表可以为一篇文字、一条语句等。
P102,分类标记步骤:基于上述初始场景模板以及各类行业资料,查找某一行业资料中与目标专业词汇相关的其它词汇,结合设定算法,计算得到待分类标记的专业词汇与所属行业的关联概率,标记上述专业词汇属于某一行业的关联概率。上述目标专业词汇即待分类标记的专业词汇。
在自然语言处理中,常用一种N-gram的方式标注一遍文章中词语的词性。在N-gram标注方法中,假定当前需要标注的词语与前面的N-1个词语都相互关联。但是,我们此处的标注不是用来区分词性(自然语言处理中常用来区分名称,形容词,动词等),而是标注词语所属的行业分类。
详述的,分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率,具体包括,
P1021,对步骤P101中收集的各类行业资料内容进行分词处理,若行业资料为中文,即为中文分词,若为英文,则为英文分词,在本发明中,利用IK分词器对行业资料进行分词处理即可。
P1022,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,结合步骤P101中生成的初始场景模板,将计算第M个目标专业词汇属于某个行业的关联概率转化为计算前M-2个相关词汇属于某个行业的关联概率,计算条件概率:
P(Wt|W1,W2,、、、Wt-1);
其中,前M-2个词语的关联概率通过查询初始场景模板获得;
P1023,经上述步骤P1022计算得到第M个目标专业词汇属于某个行业的关联概率组,标记为Pc(M1,M2,、、、,Mm)。
通过上述技术方案,如图4所示,可以根据目标专业词汇前后文的专业词汇所属行业分类对目标专业词汇进行分类。
由于初始场景模板数据量比较小,会导致大量的专业词汇关联概率评估为0,而当某个词关联概率为0时,并不代表该专业词汇就与某个行业无关,其可能是数据集不全导致。为了避免上述情况的出现,后续步骤还包括场景模板修正步骤P103,利用步骤P102得到的关联概率修正步骤P101中的初始场景模板,生成修正后的应用场景模板;
具体而言,场景模板修正步骤P103进一步包括:
P1031,将分类标记步骤P102得到的某专业词汇的概率组Pc(M1,M2,、、、,Mm)与原场景模板中对应记载的关联概率组Pr(M1,M2,、、、,Mn)取叠加均值,获得新的场景模板概率组Prc(M1,M2,、、、,Mm);在实际应用当中,也可以采用其它权重值对上述关联概率加以分配。
P1032,如图5所示,将上述运算后的概率数组经过平滑函数输出,所述平滑函数采用Jelink-Mercer平滑函数处理,公式如下:
其中D表示第M个目标专业词汇所在的文档,C表示所有文档集合。
P1033,循环分类标记步骤P102和场景模板修正步骤P103,直到处理完成所有的行业资料,生成修正后的应用场景模板。
构建倒排索引步骤P104,根据专业词汇属于某一行业的概率大小,设置一个概率阈值λ,根据应用场景模板的内容,大于上述概率阈值λ的词汇构建倒排索引(如图6所示)。
用户查询步骤P105,根据用户的输入,找到对应的索引词汇,将索引词汇对应的关联资料返回至用户。
优选的,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,其中M值设定为3。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于场景模板的文献撰写辅助方法,其特征在于,包括,
P101,场景模板构建步骤,收集各类行业资料,根据行业分类,提取各类行业内的专业词汇,关联存储上述专业词汇、上述专业词汇与所对应行业的关联概率、以及与上述专业词汇相关联的资料列表,生成初始场景模板;
P102,分类标记步骤,基于上述初始场景模板以及各类行业资料,查找某一行业资料中与目标专业词汇相关的其它词汇,结合设定算法,计算得到待分类标记的专业词汇与所属行业的关联概率,标记上述专业词汇属于某一行业的关联概率;
P103,场景模板修正步骤,利用步骤P102得到的关联概率修正步骤P101中的初始场景模板,生成修正后的应用场景模板;
P104,构建倒排索引步骤,根据专业词汇属于某一行业的概率大小,设置一个概率阈值λ,根据应用场景模板的内容,大于上述概率阈值λ的词汇构建倒排索引;
P105,用户查询步骤,根据用户的输入,找到对应的索引词汇,将索引词汇对应的关联资料返回至用户;
其中,分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率,具体包括,
P1021,对步骤P101中收集的各类行业资料内容进行分词处理;
P1022,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,结合步骤P101中生成的初始场景模板,将计算第M个目标专业词汇属于某个行业的关联概率转化为计算前M-2个相关词汇属于某个行业的关联概率,计算条件概率:
P(Wt|W1,W2,、、、Wt-1);
其中,前M-2个词语的关联概率通过查询初始场景模板获得;
P1023,经上述步骤P1022计算得到第M个目标专业词汇属于某个行业的关联概率,标记为Pc(M1,M2,、、、,Mm)。
2.根据权利要求1所述的方法,其特征在于,步骤P101中,初始场景模板中,所述专业词汇、关联概率以及资料列表的存储结构如下:
N1:<Vo_1_1,Pr_1_1,list_1_1>,<Vo_1_2,Pr_1_2,list_1_2>,、、,<Vo_1_n-1,Pr_1_n-1,list_1_n-1>,<Vo_1_n,Pr_1_n,list_1_n>;
N2:<Vo_2_1,Pr_2_1,list_2_1>,<Vo_2_2,Pr_2_2,list_2_2>,、、,<Vo_2_n-1,Pr_2_n-1,list_2_n-1>,<Vo_2_n,Pr_2_n,list_2_n>;、、、
Nm:<Vo_m_1,Pr_m_1,list_m_1>,<Vo_m_2,Pr_m_2,list_m_2>,、、,<Vo_m_n-1,Pr_m_n-1,list_m_n-1>,<Vo_m_n,Pr_m_n,list_m_n>;
其中,上述词汇表中,N表示行业类型,Vo表示专业词汇,Pr表示上述专业词汇与上述行业类型之间关联概率的大小,list表示与上述专业词汇相关联的资料列表;
Vo_m_n表示第m个行业类型中第n个专业词汇,Pr_m_n表示第m个行业类型中第n个专业词汇与第m个行业类型的关联概率大小,list_m_n表示与上述第m个行业类型中第n个专业词汇相关联的资料列表。
4.根据权利要求1所述的方法,其特征在于,所述行业资料包括专业文章、专利文献、科技文献、书籍资料。
5.根据权利要求1所述的方法,其特征在于,步骤P1021,对步骤P101中收集的各类行业资料内容进行分词处理,包括:利用IK分词器对行业资料进行分词处理。
6.根据权利要求1所述的方法,其特征在于,确定待标记目标专业词汇所需其它专业词汇所在的上下文范围,其中M值设定为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143664.6A CN109918632B (zh) | 2019-02-26 | 2019-02-26 | 基于场景模板的文献撰写辅助方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143664.6A CN109918632B (zh) | 2019-02-26 | 2019-02-26 | 基于场景模板的文献撰写辅助方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918632A CN109918632A (zh) | 2019-06-21 |
CN109918632B true CN109918632B (zh) | 2022-12-06 |
Family
ID=66962554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143664.6A Active CN109918632B (zh) | 2019-02-26 | 2019-02-26 | 基于场景模板的文献撰写辅助方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918632B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11403541B2 (en) | 2019-02-14 | 2022-08-02 | Rockwell Automation Technologies, Inc. | AI extensions and intelligent model validation for an industrial digital twin |
US11435726B2 (en) * | 2019-09-30 | 2022-09-06 | Rockwell Automation Technologies, Inc. | Contextualization of industrial data at the device level |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251854A (zh) * | 2008-03-19 | 2008-08-27 | 深圳先进技术研究院 | 一种生成检索词条的方法及数据检索方法和系统 |
TW201435625A (zh) * | 2013-03-06 | 2014-09-16 | Univ Southern Taiwan Sci & Tec | 專業領域辭典電腦輔助撰寫方法及系統 |
CN104572758A (zh) * | 2013-10-24 | 2015-04-29 | 山东大学 | 一种电力领域专业词汇自动抽取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7849087B2 (en) * | 2005-06-29 | 2010-12-07 | Xerox Corporation | Incremental training for probabilistic categorizer |
-
2019
- 2019-02-26 CN CN201910143664.6A patent/CN109918632B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251854A (zh) * | 2008-03-19 | 2008-08-27 | 深圳先进技术研究院 | 一种生成检索词条的方法及数据检索方法和系统 |
TW201435625A (zh) * | 2013-03-06 | 2014-09-16 | Univ Southern Taiwan Sci & Tec | 專業領域辭典電腦輔助撰寫方法及系統 |
CN104572758A (zh) * | 2013-10-24 | 2015-04-29 | 山东大学 | 一种电力领域专业词汇自动抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于领域语料的专业英语教学词汇建构;王波;《电脑知识与技术》;20110505(第13期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109918632A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111324784B (zh) | 一种字符串处理方法及装置 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN113948066B (zh) | 一种实时转译文本的纠错方法、系统、存储介质和装置 | |
CN109918632B (zh) | 基于场景模板的文献撰写辅助方法 | |
CN108509521A (zh) | 一种自动生成文本索引的图像检索方法 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN116484808A (zh) | 一种公文用可控文本生成方法及装置 | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN108664464B (zh) | 一种语义相关度的确定方法及确定装置 | |
Bigot et al. | Person name recognition in ASR outputs using continuous context models | |
CN109446334A (zh) | 一种实现英文文本分类的方法及相关设备 | |
Kozareva et al. | ProSeqo: Projection sequence networks for on-device text classification | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN112287657A (zh) | 基于文本相似度的信息匹配系统 | |
CN111767724A (zh) | 一种文本相似度计算方法及系统 | |
TWM633252U (zh) | 用於標註訓練資料的運算裝置、用於建立文章標註模型的運算裝置及用於標註文章的運算裝置 | |
CN116644228A (zh) | 多模态全文信息检索方法、系统及存储介质 | |
CN114003750B (zh) | 物料上线方法、装置、设备及存储介质 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN113220824B (zh) | 数据检索方法、装置、设备及存储介质 | |
CN115438223A (zh) | 视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |