CN109918632B

CN109918632B - 基于场景模板的文献撰写辅助方法

Info

Publication number: CN109918632B
Application number: CN201910143664.6A
Authority: CN
Inventors: 陈超
Original assignee: Weizheng Technology Service Co ltd
Current assignee: Weizheng Technology Service Co ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-12-06
Anticipated expiration: 2039-02-26
Also published as: CN109918632A

Abstract

本发明公开一种基于场景模板的文献撰写辅助方法，包括P101，收集各类行业资料，根据行业分类，提取各类行业内专业词汇，生成初始场景模板；P102，基于初始场景模板、行业资料、设定算法，计算得到待分类标记专业词汇与所属行业的关联概率；P103，利用步骤P102得到的关联概率修正初始场景模板，生成应用场景模板；P104，根据专业词汇属于某一行业的概率大小，设置一概率阈值λ，根据应用场景模板的内容，大于概率阈值λ的词汇构建倒排索引；P105，根据用户的输入，找到索引词汇，将索引词汇对应的关联资料返回至用户。本发明结合搜索引擎和自然语言处理的标记技术，把自然语言标记技术用于词语行业分类，构建了一种特有的辅助撰写技术，维护简单，方便实用。

Description

基于场景模板的文献撰写辅助方法

技术领域

本发明涉及数据管理技术领域，更具体地说，它涉及一种基于场景模板的文献撰写辅助方法及系统。

背景技术

在一些专业文献的编辑撰写过程中，文献编辑者通常需要查阅许多相关的文档素材才能快速准确地编辑撰写出相应的文献，如专利文献、科技文献等。

为了能够加快撰写的速度，现有技术中，编辑者常常将编辑某一类文献所需要用到的文档素材整理放置到一个对应的资料库中，在编辑该类型文献时，可以从上述资料库中快速地查找并提取出所需的文献素材。

如图1所示，传统的撰写辅助方法需要人为的去维护一个资料库，在资料库中录入一些对撰写有帮助的段落、语句或词条，然后把这些内容进行分类。后期用户按照所需要的分类进行查询，从查询的结果中筛选想要的内容。上述数据存储查找并提取的撰写辅助方式对资料库的要求极高，需要实时更新数据且数据相互关联，分类判定十分冗杂。但由于资料库需要由人工维护，因而工作量巨大，而且在诸如专利文献等涉及专业领域较多的文献撰写过程中，会涉及到各行各业的知识，亦即意味着资料库的数据量以及维护的要求会非常高，可行性差，在实践中利用上述撰写辅助方法对于编辑撰写的帮助不大。

发明内容

针对实际运用中常用的撰写辅助方法不适用于专利文献等科技文献的辅助撰写这一问题，本发明目的一在于提出一种基于场景模板的文献撰写辅助方法，具有维护方便、查询快捷，实用性高的优点。

具体方案如下：

一种基于场景模板的文献撰写辅助方法，包括，

P101，场景模板构建步骤，收集各类行业资料，根据行业分类，提取各类行业内的专业词汇，关联存储上述专业词汇、上述专业词汇与所对应行业的关联概率、以及与上述专业词汇相关联的资料列表，生成初始场景模板；

P102，分类标记步骤，基于上述初始场景模板以及各类行业资料，查找某一行业资料中与目标专业词汇相关的其它词汇，结合设定算法，计算得到待分类标记的专业词汇与所属行业的关联概率，标记上述专业词汇属于某一行业的关联概率；

P103，场景模板修正步骤，利用步骤P102得到的关联概率修正步骤P101中的初始场景模板，生成修正后的应用场景模板；

P104，构建倒排索引步骤，根据专业词汇属于某一行业的概率大小，设置一个概率阈值λ，根据应用场景模板的内容，大于上述概率阈值λ的词汇构建倒排索引；

P105，用户查询步骤，根据用户的输入，找到对应的索引词汇，将索引词汇对应的关联资料返回至用户。

通过上述技术方案，可以不断地利用初始场景模板对新的专业词汇加以定义且定义方式更为简便快捷，在查找与专业词汇相关的专业资料时也更加精准快捷。

进一步的，步骤P101中，初始场景模板中，所述专业词汇、关联概率以及资料列表的存储结构如下：

N1:<Vo_1_1，Pr_1_1,list_1_1>，<Vo_1_2，Pr_1_2,list_1_2>,、、,<Vo_1_n-1，Pr_1_n-1,list_1_n-1>，<Vo_1_n，Pr_1_n,list_1_n>；

N2:<Vo_2_1，Pr_2_1,list_2_1>，<Vo_2_2，Pr_2_2,list_2_2>,、、,<Vo_2_n-1，Pr_2_n-1,list_2_n-1>，<Vo_2_n，Pr_2_n,list_2_n>；

、、、

Nm:<Vo_m_1，Pr_m_1,list_m_1>，<Vo_m_2，Pr_m_2,list_m_2>,、、,<Vo_m_n-1，Pr_m_n-1,list_m_n-1>，<Vo_m_n，Pr_m_n,list_m_n>；

其中，上述词汇表中，N表示行业类型，Vo表示专业词汇，Pr表示上述专业词汇与上述行业类型之间关联概率的大小，list表示与上述专业词汇相关联的资料列表；

Vo_m_n表示第m个行业类型中第n个专业词汇，Pr_m_n表示第m个行业类型中第n个专业词汇与第m个行业类型的关联概率大小，list_m_n表示与上述第m个行业类型中第n个专业词汇相关联的资料列表。

进一步的，分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率，具体包括，

P1021，对步骤P101中收集的各类行业资料内容进行分词处理；

P1022，确定待标记目标专业词汇所需其它专业词汇所在的上下文范围，结合步骤P101中生成的初始场景模板，将计算第M个目标专业词汇属于某个行业的关联概率转化为计算前M-2个相关词汇属于某个行业的关联概率，计算条件概率：

P(Wt|W1,W2,、、、Wt-1)；

其中，前M-2个词语的关联概率通过查询初始场景模板获得；

P1023，经上述步骤P1022计算得到第M个目标专业词汇属于某个行业的关联概率，标记为Pc（M1，M2，、、、，Mm）。

通过上述技术方案，利用目标专业词汇上下文的相关专业词汇，可以推知出上述目标专业词汇与设定类型行业的关联概率，重复上述过程，可以使得专业词汇与行业的关联概率判定更为准确。

进一步的，场景模板修正步骤进一步包括：

P1031，将分类标记步骤P102得到的某专业词汇的概率组Pc（M1，M2，、、、，Mm）与原场景模板中对应记载的关联概率组Pr（M1，M2，、、、，Mn）取叠加均值，获得新的场景模板概率组Prc（M1，M2，、、、，Mm）；

P1032，将上述运算后的概率数组经过平滑函数输出，公式如下：

其中D表示第M个目标专业词汇所在的文档，C表示所有文档集合；

P1033，循环分类标记步骤P102和场景模板修正步骤P103，直到处理完成所有的行业资料，生成修正后的应用场景模板。

进一步的，所述行业资料包括专业文章、专利文献、科技文献、书籍资料。

进一步的，步骤P1021，对步骤P101中收集的各类行业资料内容进行分词处理，包括：利用IK分词器对行业资料进行分词处理。

进一步的，确定待标记目标专业词汇所需其它专业词汇所在的上下文范围，其中M值设定为3。

与现有技术相比，本发明结合搜索引擎技术和自然语言处理的标记技术，同时，把自然语言的标记技术用于词语行业分类，构建了一种特有的专利辅助撰写技术。发明利用数学模型对现实问题建模，具有比较高的严谨性。

附图说明

图1为现有技术中撰写辅助方法的示意图；

图2为本发明的方法的示意图；

图3为本发明初始场景模板中词汇表的示意图；

图4为本发明中专业词汇标注的示意图；

图5为本发明中利用平滑函数处理词语标记的示意图；

图6为本发明中构建的词语倒排索引示意图。

具体实施方式

下面结合实施例及图对本发明作进一步的详细说明，但本发明的实施方式不仅限于此。

一种基于场景模板的文献撰写辅助方法，如图1所示，包括，场景模板构建步骤P101、分类标记步骤P102、场景模板修正步骤P103、构建倒排索引步骤P104以及用户查询步骤P105。

结合图2所示，P101，场景模板构建步骤：收集各类行业资料，根据行业分类，提取各类行业内的专业词汇，关联存储上述专业词汇、上述专业词汇与所对应行业的关联概率、以及与上述专业词汇相关联的资料列表，生成初始场景模板。上述行业资料包括专业文章、专利文献、科技文献、书籍资料等。专业词汇包括该专业领域中常见的词汇，如在球类运动领域中，篮球、足球、门将、球衣等则可以认定为与球类运动专业相关联。在专利文献的撰写中，化学类、机械类、电学类案件的专业词汇不同，亦可进行独立分类。

如图3所示，步骤P101，初始场景模板中，所述专业词汇、关联概率以及资料列表的存储结构如下：

、、、

其中，上述词汇表中，N表示行业类型，Vo表示专业词汇，Pr表示上述专业词汇与上述行业类型之间关联概率的大小，list表示与上述专业词汇相关联的资料列表。

Vo_m_n表示第m个行业类型中第n个专业词汇，Pr_m_n表示第m个行业类型中第n个专业词汇与第m个行业类型的关联概率大小，list_m_n表示与上述第m个行业类型中第n个专业词汇相关联的资料列表，上述资料列表可以为一篇文字、一条语句等。

P102，分类标记步骤：基于上述初始场景模板以及各类行业资料，查找某一行业资料中与目标专业词汇相关的其它词汇，结合设定算法，计算得到待分类标记的专业词汇与所属行业的关联概率，标记上述专业词汇属于某一行业的关联概率。上述目标专业词汇即待分类标记的专业词汇。

在自然语言处理中，常用一种N-gram的方式标注一遍文章中词语的词性。在N-gram标注方法中，假定当前需要标注的词语与前面的N-1个词语都相互关联。但是，我们此处的标注不是用来区分词性（自然语言处理中常用来区分名称，形容词，动词等），而是标注词语所属的行业分类。

详述的，分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率，具体包括，

P1021，对步骤P101中收集的各类行业资料内容进行分词处理，若行业资料为中文，即为中文分词，若为英文，则为英文分词，在本发明中，利用IK分词器对行业资料进行分词处理即可。

P(Wt|W1,W2,、、、Wt-1)；

其中，前M-2个词语的关联概率通过查询初始场景模板获得；

P1023，经上述步骤P1022计算得到第M个目标专业词汇属于某个行业的关联概率组，标记为Pc（M1，M2，、、、，Mm）。

通过上述技术方案，如图4所示，可以根据目标专业词汇前后文的专业词汇所属行业分类对目标专业词汇进行分类。

由于初始场景模板数据量比较小，会导致大量的专业词汇关联概率评估为0，而当某个词关联概率为0时，并不代表该专业词汇就与某个行业无关，其可能是数据集不全导致。为了避免上述情况的出现，后续步骤还包括场景模板修正步骤P103，利用步骤P102得到的关联概率修正步骤P101中的初始场景模板，生成修正后的应用场景模板；

具体而言，场景模板修正步骤P103进一步包括：

P1031，将分类标记步骤P102得到的某专业词汇的概率组Pc（M1，M2，、、、，Mm）与原场景模板中对应记载的关联概率组Pr（M1，M2，、、、，Mn）取叠加均值，获得新的场景模板概率组Prc（M1，M2，、、、，Mm）；在实际应用当中，也可以采用其它权重值对上述关联概率加以分配。

P1032，如图5所示，将上述运算后的概率数组经过平滑函数输出，所述平滑函数采用Jelink-Mercer平滑函数处理，公式如下：

其中D表示第M个目标专业词汇所在的文档，C表示所有文档集合。

构建倒排索引步骤P104，根据专业词汇属于某一行业的概率大小，设置一个概率阈值λ，根据应用场景模板的内容，大于上述概率阈值λ的词汇构建倒排索引（如图6所示）。

用户查询步骤P105，根据用户的输入，找到对应的索引词汇，将索引词汇对应的关联资料返回至用户。

优选的，确定待标记目标专业词汇所需其它专业词汇所在的上下文范围，其中M值设定为3。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于场景模板的文献撰写辅助方法，其特征在于，包括，

P104，构建倒排索引步骤,根据专业词汇属于某一行业的概率大小,设置一个概率阈值λ，根据应用场景模板的内容，大于上述概率阈值λ的词汇构建倒排索引；

P105，用户查询步骤，根据用户的输入，找到对应的索引词汇，将索引词汇对应的关联资料返回至用户；

其中，分类标记步骤中, 计算得到待分类标记的专业词汇与所属行业的关联概率，具体包括，

P1021，对步骤P101中收集的各类行业资料内容进行分词处理；

P(Wt|W1,W2,、、、Wt-1)；

其中，前M-2个词语的关联概率通过查询初始场景模板获得；

2.根据权利要求1所述的方法，其特征在于，步骤P101中，初始场景模板中，所述专业词汇、关联概率以及资料列表的存储结构如下：

N2:<Vo_2_1，Pr_2_1,list_2_1>，<Vo_2_2，Pr_2_2,list_2_2>,、、,<Vo_2_n-1，Pr_2_n-1,list_2_n-1>，<Vo_2_n，Pr_2_n,list_2_n>；、、、

3.根据权利要求1所述的方法，其特征在于，场景模板修正步骤进一步包括：

4.根据权利要求1所述的方法，其特征在于，所述行业资料包括专业文章、专利文献、科技文献、书籍资料。

5.根据权利要求1所述的方法，其特征在于，步骤P1021，对步骤P101中收集的各类行业资料内容进行分词处理，包括：利用IK分词器对行业资料进行分词处理。

6.根据权利要求1所述的方法，其特征在于，确定待标记目标专业词汇所需其它专业词汇所在的上下文范围，其中M值设定为3。