CN113343638B

CN113343638B - 面向精细化内容重组的服务内容多重语义自动编码方法

Info

Publication number: CN113343638B
Application number: CN202110507321.0A
Authority: CN
Inventors: 陆伟; 罗卓然; 钱佳佳; 蔡乐; 刘沛鹞
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2023-10-13
Anticipated expiration: 2041-05-10
Also published as: CN113343638A

Abstract

本发明公开了一种面向精细化内容重组的服务内容多重语义自动编码方法，首先，建立统一的自动编码标准库，构建编码体系和标签分类体系，为每个标签赋予唯一的标识符；其次，提取服务内容资源特定关键字信息，包括内容资源的标题、作者名称、发布时间、内容格式、语言类型；再次，判断内容资源是否已被编码或存在于内容资源库；最后，基于深度学习方法为内容资源自动生成唯一标识符，即内容资源编码，编码结束后将内容资源存入服务内容资源库。本发明解决了海量多领域服务内容资源的自动编码问题，代替了人工手动编码，有助于大规模服务内容资源的组织、管理和有效利用。

Description

面向精细化内容重组的服务内容多重语义自动编码方法

技术领域

本发明属于数据信息管理技术领域，具体涉及一种基于深度学习的、面向精细化内容重组的服务内容资源自动编码方法。

背景技术

随着信息技术的发展，现有海量异构多源多模态的数字化资源，普遍存在表现形式多样化、存储容量庞大、元数据标准规范不统一、生产使用过程分离、分布广泛和长期归档保存等特点，传统的体系结构、数据模式、存储方式、共享交换组织模型和精确检索难以满足大规模信息精准获取的需求。

为了便于对大规模的领域数据进行存储、检索和分析，需要建立统一的编码规范以给予服务内容资源唯一的标识码，即服务内容资源编码，其本质在于从编码标准库中确定出与内容资源最对应的编码。

目前的资源编码主要是图书管理领域的编码，是依照《中国图书馆分类法》确定书籍唯一编码的过程，缺少面向多源、多领域、碎片化内容资源标识的标准编码框架以及自动编码方法。

发明内容

本发明的目的在于提供一种面向精细化内容重组的服务内容多重语义自动编码方法，以填补目前面向海量服务内容资源自动编码技术的欠缺，避免使用高成本、主观性强且不能应对大规模资源的人工编码方式。

本发明所采用的技术方案是：一种面向精细化内容重组的服务内容多重语义自动编码方法，包括以下步骤：

步骤1：建立统一的自动编码标准库，规定统一的编码体系，建立分类体系，给予每一标签唯一的标识符；

所述自动编码标准库，编码框架由分类码、特征码和标识码三部分组成；

所述分类码用以确认服务内容资源所属的主题类别；

所述特征码用以标识服务内容资源的资源类型、语种、内容资源格式属性；

所述标识码包含著者号、发表时间、种次号和版本号；

步骤2：提取服务内容资源特定关键字信息，包括内容资源的标题、作者名称、发布时间、内容格式、语言类型；所述服务内容资源为文字资源或是已转换为文字的图像、音视频资源；

步骤3：在服务内容资源库中按标题+作者检索内容资源，若存在相同标题和作者的内容资源，只是版本不一样，则赋予新的版本号，直接存入服务内容资源库；若没有相同的服务内容资源，则进入步骤4；

步骤4：基于深度学习方法自动赋予内容资源唯一标识符，即自动生成内容资源编码，编码结束后将内容资源存入服务内容资源库；

具体实现包括以下子步骤：

步骤4.1：采用向量表示技术将服务内容资源字符向量化，得到内容资源特征向量；

步骤4.2：采用向量表示技术将编码字符向量化，得到编码特征向量；

步骤4.3：采用卷积循环神经网络对服务内容资源特征向量的每个窗口进行卷积操作，将每个窗口的文本表示进行组合，得到文本向量C；

步骤4.4：根据编码标准库中的分类体系自然生成编码之间的树状层级结构；通过结合父标签和子标签的向量来更新当前编码特征向量以解决标签不平衡的问题，得到编码向量A；

步骤4.5：采用注意力机制，根据文本向量C和编码向量A进行超维向量信息融合，得到向量V；

步骤4.6：对向量V进行标签判定，得到预测标签，使用正确标签和预测标签的二元交叉熵作为目标函数，完成内容资源的分类码自动编码；

步骤4.7：根据服务内容资源的外在属性以及编码标准，加入服务内容资源的特征码和标识码，组成完成的服务内容资源编码；

步骤4.8：将编码好的内容资源存入内容资源库。

作为优选，步骤1中，所述分类码用来确认服务内容资源所属的主题类别，将所有领域分为25个大类，再逐级划分下层类目，并为每个类别预先规定一个分类标识号，采用十进制数字来标识，子级分类用两个十进制数字表示，从01-99，若某资源不属于预先划分的任何一类，则当前层级用99表示，也表示该层无后续编码；如果一个资源同属于两个类别，使用“＝”表示复分。

作为优选，步骤1中，所述特征码中资源类型编码标识的是内容的呈现形式，用2位大写字母标识；

所述特征码中语种标识符采用CSDL标准规范语种代码，使用3位小写字母标识内容资源的语言类型；

所述内容资源格式编码使用一位小写字母+两位十进制数字的固定长度编码，编码框架中含有文本、图像、音频和视频四大类内容格式，分别用t\p\a\v标识，后跟两位十进制数字标识各大类下的具体格式。

作为优选，步骤1中，所述标识码中著者号用以标识内容资源的作者信息，如果作者的名字是中文的，那么①姓名字数≥3，取前两个字的首字母小写+第三个字的首字母在26个字母中的位置(从0开始计)；②姓名字数≤2，取首字母小写；如果作者是外文姓名，则取姓的首字母；如果是官方机构名称，那么除介词、定冠词外的首字母大写；对于有多个合著者的内容资源，取第一个著者；如果是改编的内容资源取改编者姓名；如果是翻译作品取原著者姓名；如果转发内容取原著者姓名；如果内容资源没有标识作者，但拥有出版社信息或者发布平台信息，则取出版社或发布平台名；

所述标识码中服务内容资源的时间标识取服务内容的发表时，用4位数字表示年，2位数字表示月，2位数字表示日，数据缺失则标记为0000，具体格式为(yyyy-mm-dd)，括号不可缺省；其中，月标号最大为12，天编号最大为31；

所述标识码中多模态、碎片化服务内容资源的种次号用不限位数的十进制数标识同分类同特征资源的顺序码，以“.”与之前的标识符分隔；

所述标识码中多模态、碎片化服务内容资源的版本号用不限位数的十进制标识同一资源的不同版本，对于内容资源的首个版本，该位默认不标识，具体格式为(…)，括号不可缺省，以“-”与种次号分隔。

作为优选，步骤4.1中，使用word2vec将文本内容的每个词进行向量化表示，将每个词的向量连接起来得到服务内容的特征向量，为X＝[x₁,x₂,…,x_n]，其中，x_i为内容资源中第i个词的向量表示，n为内容资源的文本长度，i≤n；

步骤4.2中使用word2vec将编码字符进行向量化表示，每个编码向量表示为d_q:t为第q个编码后的向量，t为编码的文本长度。每个分类编码后的向量表示为d_p:t＝[d₁,…d_t]，其中d_p为编码的第p个词，t为编码的文本长度。每个编码特征向量表示为D＝[d_1:t，d_2:t…，d_m:t]，其中，d_q:t为第q个编码后的向量，m为编码的数量，q＝1,2,...,m。

作为优选，步骤4.3中，文本表示c_i的卷积操作计算公式为：c_i＝s(w·x_i:i+k-1+b)，其中，x_i:i+k-1为内容资源文本中相邻k个词形成的窗口，w为权重向量，b为偏置向量，·为卷积操作，i为文本中的第i个词，s(*)为非线性方程；组合得到的文本向量C表示为C＝[c₁,c₂,…,c_n]，其中，n为文本长度，i≤n。

作为优选，步骤4.4中，若编码i的向量表示为v_i，通过它的父标签和子标签的向量来更新，第k次更新v^k _i如下：

其中，f是激活函数，W^k，是权重矩阵，P和C分别是父标签集合和子标签集合。

作为优选，步骤4.5中，根据文本向量C和编码向量A获得向量V＝AB，B＝SoftMax(C^TWA)；其中，W表示注意力层的权重矩阵，矩阵B中的每一个向量t表示第t个字符所对应的权重向量，SoftMax(x)＝exp(x_t)/∑texp(x_t)，经过注意力操作后得到向量

作为优选，步骤4.6中，构建1个节点组成的全连接层，从向量V中获取sigmoid分类器，l对应了编码的数量，通过sigmoid分类器获得每个编码的预测概率，根据得到预测标签/>其中σ(x)＝1/exp(-x)，W_o表示全连接层的权重该参数；使用正确标签和预测标签的二元交叉熵作为目标函数：/>其中，θ代表所有训练参数，Y_r∈{0，1}表示第r个编码的真实结果，/>是预测为第r个编码的概率。

作为优选，步骤4.7中，根据编码标注库和步骤2中抽取的内容资源外在属性特征，自动生成内容资源的特征编码以及标识码，分类码+特征码+标识码构成内容资源的编码。

与现有技术相比，本发明具有以下有益效果：

(1)本发明提出了一种面向海量、多领域服务内容资源的多重语义自动编码方法，弥补了面向多领域服务内容资源自动编码技术的空白，帮助海量服务内容资源的组织、管理和利用；

(2)本发明建立了一套完整的服务内容资源编码体系，制定了服务内容资源的编码组成及编码规则，明确了内容资源分类体系及对应编码；

(3)采用深度学习的方法自动抽取特征、不依赖人工编码，自动生成服务内容资源的编码；

(4)采用了卷积神经网络，排除了文本中大量的无关信息，提取局部有用信息，采用图卷积神经网络学习了编码的层次关系，能够缓解标签不平衡问题。

(5)采用了注意力机制，能够进一步提取与编码信息关系密切的文本。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的编码标准的组成图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种面向精细化内容重组的服务内容多重语义自动编码方法，包括以下步骤：

编码是采用规定的字符来表示一定的事与物，以便记录、传递、处理与存储的过程。编码的过程是信息分类和标识的过程，科学的分类是根据编码对象的特征或属性，将信息按一定的原则进行区分和分类，并排序生成唯一标识，以便管理和使用内容资源。

请见图2，本实施例的自动编码标准库，编码框架由分类码、特征码和标识码三部分组成；

本实施例的分类码用来确认服务内容资源所属的主题类别；分类码将所有领域分为25个大类，再逐级划分下层类目，并为每个类别预先规定一个分类标识号，采用十进制数字来标识，子级分类用两个十进制数字表示，从01-99，若某资源不属于预先划分的任何一类，则当前层级用99表示，也表示该层无后续编码。如果一个资源同属于两个类别，使用“＝”表示复分。

本实例以智能制造领域汽车行业为例；

表1以智能制造领域汽车行业为例的分类码

/>

本实施例的特征码用以标识服务内容资源的资源类型、语种、内容资源格式属性，它们之间以“.”间隔。

本实施例的特征码中资源类型编码标识的是内容的呈现形式，用2位大写字母标识；

表2资源类型标识符

本实施例的特征码中语种标识符采用CSDL标准规范语种代码，使用3位小写字母标识内容资源的语言类型；

表3常见语言编码

本实施例的特征码中内容资源格式编码使用一位小写字母+两位十进制数字的固定长度编码，本实施例提出的编码框架中含有文本、图像、音频和视频四大类内容格式，分别用t\p\a\v标识，后跟两位十进制数字标识各大类下的具体格式，以文本资源为例，可以再分为.doc\pdf\html\xml格式的内容资源，对于无法识别所属格式的文本赋予t99为其标识符；

表4资源格式编码

本实施例的标识码包含著者号、发表时间、种次号和版本号；

本实施例的发表时间和种次号之间以“.”分隔，种次号和版本号之间以“-”号分隔；

本实施例的著者号用以标识内容资源的作者信息，如果作者的名字是中文的，那么①姓名字数≥3，取前两个字的首字母小写+第三个字的首字母在26个字母中的位置(从0开始计)；②姓名字数≤2，取首字母小写。如果作者是外文姓名，则取姓的首字母。如果是官方机构名称，那么除介词、定冠词外的首字母大写。对于有多个合著者的内容资源，取第一个著者；如果是改编的内容资源取改编者姓名；如果是翻译作品取原著者姓名；如果转发内容取原著者姓名。如果内容资源没有标识作者，但拥有出版社信息或者发布平台信息，则取出版社或发布平台名。

本实施例的多模态、碎片化服务内容资源的时间标识取服务内容的发表时，用4位数字表示年，2位数字表示月，2位数字表示日，数据缺失则标记为0000，具体格式为(yyyy-mm-dd)，括号不可缺省。其中，月标号最大为12，天编号最大为31。

本实施例的多模态、碎片化服务内容资源的种次号用不限位数的十进制数标识同分类同特征资源的顺序码，以“.”与之前的标识符分隔。

本实施例的多模态、碎片化服务内容资源的版本号用不限位数的十进制标识同一资源的不同版本，对于内容资源的首个版本，该位默认不标识，具体格式为(…)，括号不可缺省，以“-”与种次号分隔。

步骤2：提取服务内容资源特定关键字信息，包括内容资源的标题、作者名称、发布时间、内容格式、语言类型；本实施例的服务内容资源为文字资源或是已转换为文字的图像、音视频资源；

本实施例中自动编码前先检索内容资源是否已存在能够避免内容资源的重复编码，节约计算资源和存储空间。

具体实现包括以下子步骤：

本实施例中使用word2vec将文本内容的每个词进行向量化表示，将每个词的向量连接起来得到服务内容的特征向量，为X＝[x₁,x₂,…,x_n]，其中，x_i为内容资源中第i个词的向量表示，n为内容资源的文本长度，i≤n；

本实施例中使用word2vec将编码字符进行向量化表示，每个分类编码后的向量表示为d_(p:t)＝[d_1,…d_t]，其中d_p为编码的第p个词，t为编码的文本长度。每个编码特征向量表示为D＝[d_(1:t)，d_(2:t)…，d_(m:t)]，其中，d_(q:t)为第q个编码后的向量，m为编码的数量，q＝1,2,...,m。

本实施例中，文本表示c_i的卷积操作计算公式为：c_i＝s(w·x_i:i+k-1+b)，其中，x_i:i+k-1为内容资源文本中相邻k个词形成的窗口，w为权重向量，b为偏置向量，·为卷积操作，i为文本中的第i个词，s(*)为非线性方程；组合得到的文本向量C表示为C＝[c₁,c₂,…,c_n]，其中，n为文本长度，i≤n。

本实施例中，若编码i的向量表示为v_i，通过它的父标签和子标签的向量来更新，第k次更新v^k _i如下：

步骤4.5：采用注意力机制，根据文本向量C和编码向量A进行超维向量信息融合，获得向量V；

本实施例中，8.根据权利要求7所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.5中，根据文本向量C和编码向量A获得向量V＝AB，B＝SoftMax(C^TWA)；其中，W表示注意力层的权重矩阵，矩阵B中的每一个向量t表示第t个字符所对应的权重向量，SoftMax(x)＝exp(x_t)/∑texp(x_t)，经过注意力操作后得到

本实施例中，构建1个节点组成的全连接层，从向量V中获取sigmoid分类器，l对应了编码的数量，通过sigmoid分类器获得每个编码的预测概率，根据得到预测标签/>其中σ(x)＝1/exp(-x)，W_o表示全连接层的权重该参数；使用正确标签和预测标签的二元交叉熵作为目标函数：/>其中，θ代表所有训练参数，Y_r∈{0，1}表示第r个编码的真实结果，/>是预测为第r个编码的概率。

本实施例中，根据编码标注库和步骤2中抽取的内容资源外在属性特征，自动生成内容资源的特征编码以及标识码，分类码+特征码+标识码构成内容资源的编码。

步骤4.8：将编码好的内容资源存入内容资源库。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，包括以下步骤：

所述分类码用以确认服务内容资源所属的主题类别；

所述标识码包含著者号、发表时间、种次号和版本号；

具体实现包括以下子步骤：

步骤4.8：将编码好的内容资源存入内容资源库。

2.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于：步骤1中，所述分类码用来确认服务内容资源所属的主题类别，将所有领域分为25个大类，再逐级划分下层类目，并为每个类别预先规定一个分类标识号，采用十进制数字来标识，子级分类用两个十进制数字表示，从01-99，若某资源不属于预先划分的任何一类，则当前层级用99表示，也表示该层无后续编码；如果一个资源同属于两个类别，使用“＝”表示复分。

3.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于：步骤1中，所述特征码中资源类型编码标识的是内容的呈现形式，用2位大写字母标识；

4.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于：步骤1中，所述标识码中著者号用以标识内容资源的作者信息，如果作者的名字是中文的，那么①姓名字数≥3，取前两个字的首字母小写+第三个字的首字母在26个字母中的位置；②姓名字数≤2，取首字母小写；如果作者是外文姓名，则取姓的首字母；如果是官方机构名称，那么除介词、定冠词外的首字母大写；对于有多个合著者的内容资源，取第一个著者；如果是改编的内容资源取改编者姓名；如果是翻译作品取原著者姓名；如果转发内容取原著者姓名；如果内容资源没有标识作者，但拥有出版社信息或者发布平台信息，则取出版社或发布平台名；

所述标识码中服务内容资源的时间标识取服务内容的发表时，用4位数字表示年，2位数字表示月，2位数字表示日，数据缺失则标记为0000，具体格式为(yyyy-mm-dd)，括号不可缺省；其中，表示月份的数字标号最大为12，表示天数的数字标号最大为31；

所述标识码中多模态、碎片化服务内容资源的版本号用不限位数的十进制标识同一资源的不同版本，对于内容资源的首个版本，版本号默认不标识，具体格式为(…)，括号不可缺省，以“-”与种次号分隔。

5.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.1中，使用word2vec将文本内容的每个词进行向量化表示，将每个词的向量连接起来得到服务内容的特征向量，为X＝[x₁,x₂,…,x_n]，其中，x_i为内容资源中第i个词的向量表示，n为内容资源的文本长度，i≤n；

步骤4.2中，中使用word2vec将编码字符进行向量化表示，每个分类编码后的向量表示为d_p:t＝[d₁,…d_t]，其中d_p为编码的第p个词，t为编码的文本长度；每个编码特征向量表示为D＝[d_1:t，d_2:t…，d_m:t]，其中，d_q:t为第q个编码后的向量，m为编码的数量，q＝1,2,...,m。

6.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.3中，文本表示c_i的卷积操作计算公式为：c_i＝s(w·x_i:i+k-1+b)，其中，x_i:i+k-1为内容资源文本中相邻k个词形成的窗口，w为权重向量，b为偏置向量，·为卷积操作，i为文本中的第i个词，s(*)为非线性方程；组合得到的文本向量C表示为C＝[c₁,c₂,…,c_n]，其中，n为文本长度，i≤n。

7.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.4中，若编码i的向量表示为v_i，通过它的父标签和子标签的向量来更新，第k次更新v^k _i如下：

8.根据权利要求7所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征2在于，步骤4.5中，根据文本向量C和编码向量A获得向量V＝AB，B＝SoftMax(C^TWA)；其中，W表示注意力层的权重矩阵，矩阵B中的每一个向量t表示第t个字符所对应的权重向量，SoftMax(x)＝exp(x_t)/∑texp(x_t)，经过注意力操作后得到向量

9.根据权利要求1所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.6中，构建1个节点组成的全连接层，从向量V中获取sigmoid分类器，l对应了编码的数量，通过sigmoid分类器获得每个编码的预测概率，根据得到预测标签/>其中σ(x)＝1/exp(-x)，W_o表示全连接层的权重参数；使用正确标签和预测标签的二元交叉熵作为目标函数：/>其中，θ代表所有训练参数，Y_r∈{0，1}表示第r个编码的真实结果，/>是预测为第r个编码的概率。

10.根据权利要求1-9任意一项所述的面向精细化内容重组的服务内容多重语义自动编码方法，其特征在于，步骤4.7中，根据编码标注库和步骤2中抽取的内容资源外在属性特征，自动生成内容资源的特征编码以及标识码，分类码+特征码+标识码构成内容资源的编码。