CN114333829B - 一种语音查找光盘数字档案库的方法及系统 - Google Patents

一种语音查找光盘数字档案库的方法及系统 Download PDF

Info

Publication number
CN114333829B
CN114333829B CN202210221025.9A CN202210221025A CN114333829B CN 114333829 B CN114333829 B CN 114333829B CN 202210221025 A CN202210221025 A CN 202210221025A CN 114333829 B CN114333829 B CN 114333829B
Authority
CN
China
Prior art keywords
file
search
feature
order
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210221025.9A
Other languages
English (en)
Other versions
CN114333829A (zh
Inventor
张理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kds Datacenter Solution Co ltd
Original Assignee
Beijing Kds Datacenter Solution Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kds Datacenter Solution Co ltd filed Critical Beijing Kds Datacenter Solution Co ltd
Priority to CN202210221025.9A priority Critical patent/CN114333829B/zh
Publication of CN114333829A publication Critical patent/CN114333829A/zh
Application granted granted Critical
Publication of CN114333829B publication Critical patent/CN114333829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音查找光盘数字档案库的方法及系统,涉及语音识别领域,包括:建立数字档案的档案包集;根据查找数字档案的语音命令,建立语义指令集;语音命令与数字档案具有对应关系;对档案包集进行编码,得到档案特征;对语义指令集进行编码,得到查找特征;确定档案特征与查找特征之间的映射关系;根据映射关系,应用语音命令查找数字档案。本发明通过构建档案编码器与查找编码器,并形成两种编码器的不同阶级的表示,在相关性与无关性空间中,计算不同损失,最终形成查找编码器与档案编码器之间的精准配对映射关系。通过映射关系,来实现通过语音直接对光盘库的数据档案进行精准查找。

Description

一种语音查找光盘数字档案库的方法及系统
技术领域
本发明涉及语音识别领域,特别是涉及一种语音查找光盘数字档案库的方法及系统。
背景技术
业界通过文本查找数据库的方式,通过关键词查找,匹配数字档案在入库时录入的元信息。这种查找方式完全取决于人工在档案数字化过程中录入时的元信息数量与种类。由于这种查找方法只能命中元信息,不能够从档案数据本身的各层级语义进行理解,因此这种方法使得查找结果受限。
在档案数字化过程中,如何对档案精准、高效、便捷地查找一直是档案储存与管理员亟待解决的问题。语音是一种人机交互方式中最便捷高效的方式,通过语音直接实现在光盘库的数据档案精准查找,是一种新型的数字档案查找方式。如何对查找语音以及数字档案进行有效建模,如何将建模后的特征进行高效匹配,构建精准的查找方式,是本发明提出的方法所在。
发明内容
本发明的目的是提供一种语音查找光盘数字档案库的方法及系统,能够通过语音直接对光盘库的数据档案进行精准查找。
为实现上述目的,本发明提供了如下方案:
一种语音查找光盘数字档案库的方法,包括:
建立数字档案的档案包集;
根据查找所述数字档案的语音命令,建立语义指令集;所述语音命令与所述数字档案具有对应关系;
对所述档案包集进行编码,得到档案特征;
对所述语义指令集进行编码,得到查找特征;
确定所述档案特征与所述查找特征之间的映射关系;
根据所述映射关系,应用所述语音命令查找所述数字档案。
可选地,所述对所述档案包集进行编码,得到档案特征,具体包括:
采用self-attention机制对所述档案包集进行特征提取,得到档案包集特征;
对所述档案包集特征进行非线性映射编码,得到档案特征。
可选地,所述对所述语义指令集进行编码,得到查找特征,具体包括:
采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征;
对所述语义指令集特征进行非线性映射编码,得到查找特征。
可选地,所述确定所述档案特征与所述查找特征之间的映射关系,具体包括:
根据所述档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征;
根据所述查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征;
计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离;
计算所述查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离;
计算所述查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离;
计算所述查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离;
计算非对应关系最终损失的最小值,确定所述档案特征与所述查找特征之间的映射关系。
可选地,所述计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离之前,还包括
将所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征分别存入光盘库中的内存队列中;
判断是否更新所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征;
若是,则调整所述档案基础特征的权重系数、所述档案高阶特征的权重系数、所述查找基础特征的权重系数和所述查找高阶特征的权重系数。
一种语音查找光盘数字档案库的系统,包括:
档案包集确定模块,用于建立数字档案的档案包集;
语义指令集确定模块,用于根据查找所述数字档案的语音命令,建立语义指令集;所述语义指令集与所述档案包集具有对应关系;
档案特征确定模块,用于对所述档案包集进行编码,得到档案特征;
查找特征确定模块,用于对所述语义指令集进行编码,得到查找特征;
映射关系确定模块,用于确定所述档案特征与所述查找特征之间的映射关系;
查找模块,用于根据所述映射关系,应用所述语音命令查找所述数字档案。
可选地,所述档案特征确定模块包括:
档案包集特征确定子模块,用于采用self-attention机制对所述档案包集进行特征提取,得到档案包集特征;
档案特征确定子模块,用于对所述档案包集特征进行非线性映射编码,得到档案特征。
可选地,所述查找特征确定模块包括:
语义指令集特征确定子模块,用于采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征;
查找特征确定子模块,用于对所述语义指令集特征进行非线性映射编码,得到查找特征。
可选地,所述映射关系确定模块包括:
档案子特征确定子模块,用于根据所述档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征;
查找子特征确定子模块,用于根据所述查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征;
对应基础距离确定子模块,用于计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离;
非对应基础距离确定子模块,用于计算所述查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离;
对应高阶距离确定子模块,用于计算所述查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离;
非对应高阶距离确定子模块,用于确定子模块,用于计算所述查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离;
映射关系确定子模块,用于计算非对应关系最终损失最小值,确定所述档案编码器与所述查找指令编码器之间的映射关系。
可选地,所述映射关系确定模块还包括存储子模块和更新子模块;
所述存储子模块,用于将所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征分别存入光盘库中的内存队列中;
所述更新子模块,用于通过调整所述档案基础特征的权重系数、所述档案高阶特征的权重系数、所述查找基础特征的权重系数和所述查找高阶特征的权重系数对所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征进行更新。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种语音查找光盘数字档案库的方法,包括:建立数字档案的档案包集;根据查找数字档案的语音命令,建立语义指令集;语音命令与数字档案具有对应关系;对档案包集进行编码,得到档案特征;对语义指令集进行编码,得到查找特征;确定档案特征与查找特征之间的映射关系;根据映射关系,应用语音命令查找数字档案。本发明通过构建档案编码器与查找编码器,并形成两种编码器的不同阶级的表示,在相关性与无关性空间中,计算不同损失,最终形成查找编码器与档案编码器之间的精准配对映射关系。通过映射关系,来实现通过语音直接对光盘库的数据档案进行精准查找。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音查找光盘数字档案库的方法流程图;
图2为本发明语音查找光盘数字档案库的系统结构图。
附图标记说明:1-档案包集确定模块,2-语义指令集确定模块,3-档案特征确定模块,4-查找特征确定模块,5-映射关系确定模块,6-查找模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种语音查找光盘数字档案库的方法及系统,能够通过语音直接对光盘库的数据档案进行精准查找。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的语音查找光盘数字档案库的方法,包括:
步骤S1:建立数字档案的档案包集。
具体的,档案包集
Figure DEST_PATH_IMAGE001
,表示为一共有p个档案包dd i 表示为第i个档案包。
步骤S2:根据查找数字档案的语音命令,建立语义指令集;语音命令与数字档案具有对应关系。
具体的,档案包集D被查找的语义指令集为
Figure 129631DEST_PATH_IMAGE002
,即ds一一相对应。
Figure DEST_PATH_IMAGE003
表示为一共有p个语音命令ss i 表示为第i个语音命令。
进一步的,构建对档案编码与语音查找命令的编码之间的一一映射关系fg,即使得
Figure 708332DEST_PATH_IMAGE004
Figure 773240DEST_PATH_IMAGE005
,且满足
Figure DEST_PATH_IMAGE006
一一映射,其中,DE为D的编码,SE为S的编码。其中,f为D与DE之间的关系,g为S与SE之间的关系,D为档案包集,S为语义指令集,
Figure 410807DEST_PATH_IMAGE007
表示一共有p个档案包d的编码dede i 表示为第i个档案包di的编码;
Figure DEST_PATH_IMAGE008
表示一共有p个语音命令s的编码sese i 表示为第i个语音命令s i 的编码。
步骤S3:对档案包集进行编码,得到档案特征。
S3具体包括:
步骤S31:采用self-attention机制对档案包集进行特征提取,得到档案包集特征。具体的,采用self-attention机制对档案包集D进行提取特征。
Self-attention的计算方式为:
Figure 526137DEST_PATH_IMAGE009
,其中,Q=K=V=D,d k 为D的维度。
步骤S32:对档案包集特征进行非线性映射编码,得到档案特征。
具体的,档案包集特征经过非线性映射编码,得到DE。
Figure DEST_PATH_IMAGE010
。其中,映射编码矩阵为M DE ,非线性方式为Relu非线性激活函数。
步骤S4:对语义指令集进行编码,得到查找特征。
S4具体包括:
步骤S41:采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征。
步骤S42:对语义指令集特征进行非线性映射编码,得到查找特征。
具体的,采用双向Bi-GRU机制对语音指令进行提取特征,再经过非线性映射编码,得到SE,即:
Figure 252915DEST_PATH_IMAGE011
。其中,映射编码矩阵为M SE ,非线性方式为Sigmoid非线性激活函数。
步骤S5:确定档案特征与查找特征之间的映射关系。
S5具体包括:
步骤S51:根据档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征。
具体的,对档案特征,构建多阶self-attention,即
Figure DEST_PATH_IMAGE012
,其中
Figure 933816DEST_PATH_IMAGE013
表示j阶嵌套,轮询提取不同阶级的编码表示。
进一步的,档案基础特征
Figure DEST_PATH_IMAGE014
,由n阶self-attention输出。其中,
Figure 328019DEST_PATH_IMAGE015
为档案基础特征值,p
Figure DEST_PATH_IMAGE016
的维度,
Figure 145409DEST_PATH_IMAGE017
的维度等于档案包d的个数p
Figure 405489DEST_PATH_IMAGE017
为实数集,DE为D的编码,D为档案包集。
档案高阶特征
Figure DEST_PATH_IMAGE018
,由m阶self-attention输出。其中,
Figure 172719DEST_PATH_IMAGE019
为档案高阶特征值,p
Figure DEST_PATH_IMAGE020
的维度,
Figure 689938DEST_PATH_IMAGE017
的维度等于档案包d的个数p
Figure 789481DEST_PATH_IMAGE017
为实数集,DE为D的编码,D为档案包集。
步骤S52:根据查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征。
具体的,对语音查找指令的编码特征,构建多阶双向Bi-GRU,即
Figure 772743DEST_PATH_IMAGE021
,其中
Figure DEST_PATH_IMAGE022
表示j阶嵌套,轮询提取不同阶级的编码表示。
进一步的,查找基础特征
Figure 576620DEST_PATH_IMAGE023
,由n阶双向Bi-GRU输出。其中,
Figure DEST_PATH_IMAGE024
为查找基础特征值,p
Figure 411327DEST_PATH_IMAGE016
的维度,
Figure 619455DEST_PATH_IMAGE017
的维度等于语音命令s的个数p
Figure 886750DEST_PATH_IMAGE017
为实数集,SE为S的编码,S为语义指令集。
查找高阶特征
Figure 963159DEST_PATH_IMAGE025
,由m阶双向Bi-GRU输出。其中,
Figure DEST_PATH_IMAGE026
为查找高阶特征值,p
Figure 849776DEST_PATH_IMAGE017
的维度,
Figure 291122DEST_PATH_IMAGE020
的维度等于语音命令s的个数p
Figure 481932DEST_PATH_IMAGE017
为实数集,SE为S的编码,S为语义指令集。
S52具体包括:
步骤S521:将档案基础特征、档案高阶特征、查找基础特征和查找高阶特征分别存入光盘库中的内存队列中。
具体的,将构建得到的四种表示档案基础特征、档案高阶特征、查找基础特征和查找高阶特征分别存入光盘库中的内存队列中,即分别将
Figure 535601DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
Figure 518469DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
存入光盘库中的内存队列中。光盘库中的内存储存介质一般为可修改的储存。
步骤S522:判断是否更新档案基础特征、档案高阶特征、查找基础特征和查找高阶特征。
步骤S523:若是,则调整档案基础特征的权重系数、档案高阶特征的权重系数、查找基础特征的权重系数和查找高阶特征的权重系数。
具体的,更新档案特征的方法为:
Figure 285043DEST_PATH_IMAGE031
d e 为更新后的档案特征值,其中,
Figure 589248DEST_PATH_IMAGE032
为档案基础特征值,
Figure DEST_PATH_IMAGE033
为档案高阶特征值,α为档案特征的权重参数,α的值在0到1之间。
更新查找特征的方法为:
Figure 105330DEST_PATH_IMAGE034
S e 为更新后的查找特征值,其中,
Figure DEST_PATH_IMAGE035
为查找基础特征值,
Figure 208284DEST_PATH_IMAGE036
为查找高阶特征值,β为查找特征的权重参数,β的值在0到1之间。
更新后的特征值,存入光盘库的光盘储存介质中。存入光盘库的光盘介质中的特征可以更新不可再次修改。
步骤S53:计算查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离。
具体的,计算S bi 和与S bi 具有一一对应关系的d bi 之间的距离l bi
Figure 430580DEST_PATH_IMAGE037
其中,S bi 为第i个查找基础特征值,d bi 为与S bi 对应的第i个档案基础特征值,d e 为更新后的档案特征值,S e 为更新后的查找特征值。
步骤S54:计算查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离。
具体的,计算S bi d bj 非对应关系之间的距离l bj ,其中,ji
Figure DEST_PATH_IMAGE038
。其中,S bi 为第i个查找基础特征值,d bj 为未与S bi 对应的档案基础特征的第j个档案基础特征值。
步骤S55:计算查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离。
具体的,计算S hi 和与S hi 具有一一对应关系的d hi 之间的距离l hi
Figure 314091DEST_PATH_IMAGE039
。其中,S hi 为第i个查找高阶特征值,d hi 为与S hi 对应的第i个档案高阶特征值,d e 为更新后的档案特征值,S e 为更新后的查找特征值。
步骤S56:计算查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离。
具体的,计算S hi d hj 非对应关系之间的距离l hj ,其中,j≠i。
Figure DEST_PATH_IMAGE040
。其中,S hi 为第i个查找高阶特征值,d hj 为未与S hi 对应的档案基础特征的第j个档案基础特征值。
步骤S57:计算非对应关系最终损失的最小值,确定档案特征与查找特征之间的映射关系。
具体的,计算由非对应关系引起的最终损失:
Figure 300108DEST_PATH_IMAGE041
其中,l bi S bi 和与S bi 具有一一对应关系的d bi 之间的距离l bi S bi 为第i个查找基础特征值,d bi 为与S bi 对应的第i个档案基础特征值,l bj S bi d bj 非对应关系之间的距离,l hi S hi 和与S hi 具有一一对应关系的d hi 之间的距离,S hi 为第i个查找高阶特征值,d hi 为与S hi 对应的第i个档案高阶特征值,l hj S hi d hj 非对应关系之间的距离,S hi 为第i个查找高阶特征值,d hj 为未与S hi 对应的档案基础特征的第j个档案基础特征值,jip为档案包的个数。
约束损失以形成查找编码器与档案编码器之间的映射关系:
在满足档案与查找指令之间的对应关系距离小于非对应关系距离的情况下,即在
Figure DEST_PATH_IMAGE042
情况下,使得loss最小,求得的d e S e ,即为满足具有一一对应关系的档案编码与查询编码。其中,d i 表示为第i个档案包,S i 表示为第i个语音命令,S j 表示为第j个语音命令,d e 为更新后的档案特征值,S e 为更新后的查找特征值。
步骤S6:根据映射关系,应用语音命令查找数字档案。
如图2所示,本发明提供的语音查找光盘数字档案库的系统,包括:
档案包集确定模块1,用于建立数字档案的档案包集。
语义指令集确定模块2,用于根据查找数字档案的语音命令,建立语义指令集;语义指令集与档案包集具有对应关系。
档案特征确定模块3,用于对档案包集进行编码,得到档案特征。
查找特征确定模块4,用于对语义指令集进行编码,得到查找特征。
映射关系确定模块5,用于确定档案特征与查找特征之间的映射关系。
查找模块6,用于根据映射关系,应用语音命令查找数字档案。
其中,档案特征确定模块3包括:
档案包集特征确定子模块,用于采用self-attention机制对档案包集进行特征提取,得到档案包集特征。
档案特征确定子模块,用于对档案包集特征进行非线性映射编码,得到档案特征。
其中,查找特征确定模块4包括:
语义指令集特征确定子模块,用于采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征。
查找特征确定子模块,用于对语义指令集特征进行非线性映射编码,得到查找特征。
其中,映射关系确定模块5包括:
档案子特征确定子模块,用于根据档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征。
查找子特征确定子模块,用于根据查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征。
对应基础距离确定子模块,用于计算查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离。
非对应基础距离确定子模块,用于计算查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离。
对应高阶距离确定子模块,用于计算查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离。
非对应高阶距离确定子模块,用于确定子模块,用于计算查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离。
映射关系确定子模块,用于计算非对应关系最终损失最小值,确定档案编码器与查找指令编码器之间的映射关系。
其中,映射关系确定模块5还包括存储子模块和更新子模块。
存储子模块,用于将档案基础特征、档案高阶特征、查找基础特征和查找高阶特征分别存入光盘库中的内存队列中。
更新子模块,用于通过调整档案基础特征的权重系数、档案高阶特征的权重系数、查找基础特征的权重系数和查找高阶特征的权重系数对档案基础特征、档案高阶特征、查找基础特征和查找高阶特征进行更新。
本申请提供的语音查找光盘数字档案库的方法及系统具有以下优势:
档案编码与查询编码具有比关键词匹配技术更深层次的语义理解含义,当查询语音被编码为查询编码特征后,变可以从更深层次的维度查找相应档案,从而实现更精准,更高效的光盘库查找方法。存入光盘介质的编码特征,具有比数字档案元信息更广阔的表征能力,且不易丢失,使得查找方法文档且高效安全。
此外,通过本发明提出的查找方法对光盘库中的数字档案进行查找,可以不再受限于数字档案入库时录入的元信息,可以丰富且准确提供查找结果,提升光盘库中的档案查找效率。为档案工作者在查找工作中减轻繁琐的查找档案负担。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种语音查找光盘数字档案库的方法,其特征在于,所述方法包括:
建立数字档案的档案包集;
根据查找所述数字档案的语音命令,建立语义指令集;所述语音命令与所述数字档案具有对应关系;
对所述档案包集进行编码,得到档案特征;
对所述语义指令集进行编码,得到查找特征;
确定所述档案特征与所述查找特征之间的映射关系;
根据所述映射关系,应用所述语音命令查找所述数字档案;
所述确定所述档案特征与所述查找特征之间的映射关系,具体包括:
根据所述档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征;
根据所述查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征;
计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离;
计算所述查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离;
计算所述查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离;
计算所述查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离;
计算非对应关系最终损失的最小值,确定所述档案特征与所述查找特征之间的映射关系。
2.根据权利要求1所述的语音查找光盘数字档案库的方法,其特征在于,所述对所述档案包集进行编码,得到档案特征,具体包括:
采用self-attention机制对所述档案包集进行特征提取,得到档案包集特征;
对所述档案包集特征进行非线性映射编码,得到档案特征。
3.根据权利要求1所述的语音查找光盘数字档案库的方法,其特征在于,所述对所述语义指令集进行编码,得到查找特征,具体包括:
采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征;
对所述语义指令集特征进行非线性映射编码,得到查找特征。
4.根据权利要求1所述的语音查找光盘数字档案库的方法,其特征在于,所述计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离之前,还包括
将所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征分别存入光盘库中的内存队列中;
判断是否更新所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征;
若是,则调整所述档案基础特征的权重系数、所述档案高阶特征的权重系数、所述查找基础特征的权重系数和所述查找高阶特征的权重系数。
5.一种语音查找光盘数字档案库的系统,其特征在于,所述系统包括:
档案包集确定模块,用于建立数字档案的档案包集;
语义指令集确定模块,用于根据查找所述数字档案的语音命令,建立语义指令集;所述语义指令集与所述档案包集具有对应关系;
档案特征确定模块,用于对所述档案包集进行编码,得到档案特征;
查找特征确定模块,用于对所述语义指令集进行编码,得到查找特征;
映射关系确定模块,用于确定所述档案特征与所述查找特征之间的映射关系;
查找模块,用于根据所述映射关系,应用所述语音命令查找所述数字档案;
所述映射关系确定模块包括:
档案子特征确定子模块,用于根据所述档案特征,构建多阶self-attention,得到档案基础特征和档案高阶特征;
查找子特征确定子模块,用于根据所述查找特征,构建多阶双向Bi-GRU,得到查找基础特征和查找高阶特征;
对应基础距离确定子模块,用于计算所述查找基础特征和与之对应的档案基础特征之间的距离,得到对应基础距离;
非对应基础距离确定子模块,用于计算所述查找基础特征和与之未对应的档案基础特征之间的距离,得到非对应基础距离;
对应高阶距离确定子模块,用于计算所述查找高阶特征和与之对应的档案高阶特征之间的距离,得到对应高阶距离;
非对应高阶距离确定子模块,用于确定子模块,用于计算所述查找高阶特征和与之未对应的档案高阶特征之间的距离,得到非对应高阶距离;
映射关系确定子模块,用于计算非对应关系最终损失最小值,确定所述档案特征与所述查找特征之间的映射关系。
6.根据权利要求5所述的语音查找光盘数字档案库的系统,其特征在于,所述档案特征确定模块包括:
档案包集特征确定子模块,用于采用self-attention机制对所述档案包集进行特征提取,得到档案包集特征;
档案特征确定子模块,用于对所述档案包集特征进行非线性映射编码,得到档案特征。
7.根据权利要求5所述的语音查找光盘数字档案库的系统,其特征在于,所述查找特征确定模块包括:
语义指令集特征确定子模块,用于采用双向Bi-GRU机制对语音指令进行提取特征,得到语义指令集特征;
查找特征确定子模块,用于对所述语义指令集特征进行非线性映射编码,得到查找特征。
8.根据权利要求5所述的语音查找光盘数字档案库的系统,其特征在于,所述映射关系确定模块还包括存储子模块和更新子模块;
所述存储子模块,用于将所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征分别存入光盘库中的内存队列中;
所述更新子模块,用于通过调整所述档案基础特征的权重系数、所述档案高阶特征的权重系数、所述查找基础特征的权重系数和所述查找高阶特征的权重系数对所述档案基础特征、所述档案高阶特征、所述查找基础特征和所述查找高阶特征进行更新。
CN202210221025.9A 2022-03-09 2022-03-09 一种语音查找光盘数字档案库的方法及系统 Active CN114333829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221025.9A CN114333829B (zh) 2022-03-09 2022-03-09 一种语音查找光盘数字档案库的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221025.9A CN114333829B (zh) 2022-03-09 2022-03-09 一种语音查找光盘数字档案库的方法及系统

Publications (2)

Publication Number Publication Date
CN114333829A CN114333829A (zh) 2022-04-12
CN114333829B true CN114333829B (zh) 2022-06-17

Family

ID=81033346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221025.9A Active CN114333829B (zh) 2022-03-09 2022-03-09 一种语音查找光盘数字档案库的方法及系统

Country Status (1)

Country Link
CN (1) CN114333829B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3928049A1 (de) * 1989-08-25 1991-02-28 Grundig Emv Sprachgesteuertes archivsystem
CN108806685A (zh) * 2018-07-02 2018-11-13 英业达科技有限公司 语音控制系统及其方法
CN110457259A (zh) * 2019-08-06 2019-11-15 合肥泓泉档案信息科技有限公司 一种档案数字化管理分析系统
CN112989018B (zh) * 2021-05-19 2021-08-17 江苏联著实业股份有限公司 一种基于语义分析的档案自动开放鉴定方法及系统
CN113094509B (zh) * 2021-06-08 2021-12-21 明品云(北京)数据科技有限公司 文本信息提取方法、系统、设备及介质
CN113282752B (zh) * 2021-06-09 2023-04-25 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统
CN113610194B (zh) * 2021-09-09 2023-08-11 重庆数字城市科技有限公司 一种数字档案自动分类方法

Also Published As

Publication number Publication date
CN114333829A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US7797360B2 (en) Sortable floating point numbers
US7831428B2 (en) Speech index pruning
RU2503058C2 (ru) Оптимизация формата поискового индекса
CN102411580B (zh) 可扩展标记语言文档的检索方法及装置
WO2018000709A1 (zh) 时间信息编码方法、编码值检索方法、解码方法与装置
CN109902172B (zh) 案情文本分类方法、装置以及存储介质
CN115840799B (zh) 一种基于深度学习的知识产权综合管理系统
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN114333829B (zh) 一种语音查找光盘数字档案库的方法及系统
US8566324B1 (en) Inverted index and inverted list process for storing and retrieving information
CN113342909B (zh) 识别相同实体模型的数据处理系统
CN113190651B (zh) 基于定额知识图谱技术的电力数据全局知识图谱补全方法
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
Steadman et al. Variable-length constrained sequence codes
CN115840751B (zh) 一种新型树状数据的编码方法
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN109670057B (zh) 一种渐进式的端到端深度特征量化系统及方法
US20120319875A1 (en) Method for storing node information of huffman tree and corresponding decoding method
CN116089663A (zh) 一种规则表达式匹配方法、装置及计算机可读存储介质
Ai et al. Efficient approximate nearest neighbor search by optimized residual vector quantization
US20060004791A1 (en) Use of pseudo keys in node ID range based storage architecture
CN113055018B (zh) 一种基于启发式线性变换的语义编码无损压缩系统及方法
CN117573096B (zh) 一种融合抽象语法树结构信息的智能代码补全方法
JP2590287B2 (ja) データ圧縮方法およびデータ圧縮装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant