CN114781400B

CN114781400B - 一种跨媒体知识语义表达方法和装置

Info

Publication number: CN114781400B
Application number: CN202210685231.5A
Authority: CN
Inventors: 林峰; 潘云鹤
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-09
Anticipated expiration: 2042-06-17
Also published as: CN114781400A

Abstract

本发明提供一种跨媒体知识语义表达方法和装置，所述方法包括：根据预设的语义描述，进行数据采集，语义描述包括一有限语义产生式集合；将数据采集获得的拓扑结构的数据信息输入预设的与语义描述对应的自动机的堆栈中，自动机用于进行跨媒体知识映射，自动机包括一有限状态集、一输入词汇表和一堆栈，有限状态集用于指示自动机所包括的状态，输入词汇表用于指示自动机所包括的词汇；通过自动机将数据信息进行映射，获得数据采集所采集的目标对象的子结构和/或分支分别对应的关键帧；根据数据采集所采集的目标对象的子结构和/或分支分别对应的关键帧，生成拓扑结构的可视化语义表达，可视化语义表达为第二种媒体表达方式。实现跨媒体知识对齐。

Description

一种跨媒体知识语义表达方法和装置

技术领域

本发明属于人工智能领域，尤其涉及一种跨媒体知识语义表达方法和装置。

背景技术

跨媒体知识对齐是识别不同媒体之间的子分支/元素的对应关系，跨媒体知识对齐负责对来自同一个目标对象的不同媒体信息的子分支/元素寻找对应关系，这个对应关系可以是时间维度的，也可以是空间维度的。跨媒体知识映射是将某一特定媒体数据中的信息映射至另一媒体；跨媒体知识对齐是识别不同媒体之间的部件、元素的对应关系；跨媒体融合是联合多个媒体的信息，进行目标预测（分类或者回归）；跨媒体协同学习是将信息富集的媒体上学习的知识迁移到信息匮乏的媒体，使各个媒体的学习互相辅助。

目前，对于跨媒体之间的知识表达是通过模型训练方式来实现的，这种模型训练方式需要大量的训练样本，处理效率低且准确度有限。

发明内容

本发明提供一种跨媒体知识语义表达方法和装置。

本发明实施例的第一方面提供一种跨媒体知识语义表达方法，所述方法包括：

根据预设的语义描述，进行数据采集，其中，所述语义描述包括一有限语义产生式集合，所述有限语义产生式集合包括多个语义句，每一语义句用于指示所述数据采集待采集的目标对象的拓扑结构，所述拓扑结构包括所述目标对象的子结构及所述子结构包括的分支，且所述语义句为第一种媒体表达方式；

将所述数据采集获得的所述拓扑结构的数据信息输入预设的与所述语义描述对应的自动机的堆栈中，其中，所述自动机用于进行跨媒体知识映射，所述自动机包括一有限状态集、一输入词汇表和一堆栈，所述有限状态集用于指示所述自动机所包括的状态，所述输入词汇表用于指示所述自动机所包括的词汇；

通过所述自动机将所述数据信息进行映射，获得所述数据采集所采集的所述目标对象的子结构和/或所述分支分别对应的关键帧；

根据所述数据采集所采集的所述目标对象的子结构和/或所述分支分别对应的关键帧，生成所述拓扑结构的可视化语义表达，所述可视化语义表达为第二种媒体表达方式。

可选地，所述语义描述G的表达式为：

G=(V,T,P,S₀)；

其中，V是一有限语义产生式集合；

T是一有限词汇集，V与T不相交；

S₀是所述语义描述G的起始变量，S₀∈V；

P是一有限语义产生式集合，所述有限语义产生式集合包括多个产生式，每个产生式表示为A→α, 其中，A是一语义变量，A∈V，α是集合(V∪T)^*中的一串语义变量和词汇。

可选地，所述自动机M的表达式为：

；

其中，

是一有限状态集；

是一个输入词汇表；

是一堆栈字母表；

是从

到有限子集

的映射，其中

代表词汇空缺，

是堆栈字母表的任意组合；

q₀是初始状态，

；

是堆栈表初始字母；

F是一个终止状态集，

。

可选地，所述通过所述自动机将所述数据信息进行映射，获得所述数据采集所采集的所述目标对象的子结构和/或所述分支分别对应的关键帧，包括：

获取所述自动机的当前状态；

当所述当前状态在所述有限状态集

所包含的状态内时，获取当前输入所述自动机的堆栈中的数据信息，若所述当前输入所述自动机的堆栈中的数据信息属于所述输入词汇表

中的词汇且堆栈字母Z在栈顶，则根据所述堆栈中的数据信息生成字符串

，所述字符串

能够用于生成所述目标对象的子结构和/或所述分支分别对应的关键帧，并且以字符串

替代堆栈字母Z，所述自动机进入新状态，直至所述新状态在所述终止状态集F所包含的状态内或所述堆栈为空，

，

，其中所述堆栈字母Z是指生成上一个拓扑结构对应的可视化语义表达的所有数据信息。

可选地，所述方法还包括：

若当前输入自动机的堆栈中的数据信息为词汇空缺，所述自动机则不处理所述堆栈中的数据信息，并且所述自动机进入新状态，直至所述新状态在所述终止状态集F所包含的状态内或所述堆栈为空。

可选地，所述跨媒体知识语义表达方法应用于超声扫描，所述目标对象的拓扑结构是指医学组织的解剖结构，所述数据信息为所述解剖结构各部位的断层扫描图像，所述第一种媒体表达方式为扫描断层的语义描述，所述第二种媒体表达方式为所述医学组织的解剖结构对应的三维医学图像。

可选地，所述根据预设的语义描述，进行数据采集，包括：

根据预设的语义描述，采用超声扫描器进行数据采集。

本发明实施例的第二方面提供一种跨媒体知识语义表达装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中任一项所述的跨媒体知识语义表达方法。

本发明实施例的第三方面提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中任一项所述的跨媒体知识语义表达方法。

本发明的有益效果包括：通过语义描述和自动机结合，实现第一种媒体表达方式的知识到第二种媒体表达方式的知识的自动映射，如此可实现跨媒体知识对齐，识别不同媒体之间的多层次成分（拓扑结构）的对应关系，处理效率高且准确度高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种跨媒体知识语义表达方法的流程示意图；

图2是本发明实施例提供的一种跨媒体知识语义表达方法的应用场景示意图；

图3是本发明实施例提供的一种跨媒体知识语义表达装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明实施例通过语义描述和自动机结合，实现第一种媒体表达方式的知识到第二种媒体表达方式的知识的自动映射，如此可实现跨媒体知识对齐，识别不同媒体之间的多层次成分（拓扑结构）的对应关系，处理效率高且准确度高。

本发明实施例的跨媒体知识语义表达方法可应用于超声扫描，通过语义描述来描述医学组织的解剖结构的医学断层扫描图像（图片或视频流）对应的解剖学知识语义，实现数据采集，通过自动机将采集的医学组织的解剖结构的医学断层扫描图像映射到医学组织的三维医学图像，将非可视化的医学断层扫描图像对齐成可视化的医学组织的三维医学图像。应当理解地，本发明实施例的跨媒体知识语义表达方法也可应用在其他领域，如机器加工过程中零件内部结构评估。

本发明实施例提供一种跨媒体知识语义表达方法，本发明实施例的跨媒体知识语义表达方法的执行主体可以为任意具备数据处理能力的设备，如计算机或者手机等终端设备。

参见图1，本发明实施例中的跨媒体知识语义表达方法可包括步骤S101~S104。

其中，在步骤S101中，根据预设的语义描述，进行数据采集，其中，语义描述包括一有限语义产生式集合，有限语义产生式集合包括多个语义句，每一语义句用于指示数据采集待采集的目标对象的拓扑结构，拓扑结构包括目标对象的子结构及子结构包括的分支，且语义句为第一种媒体表达方式。

例如，参见图2，将跨媒体知识语义表达方法应用于超声扫描，目标对象则为待进行超声扫描的用户，拓扑结构则为用户的医学组织的解剖结构，该医学组织可以为诸如心脏、胆道系统、肝脏或者肾脏等。比如，以医学组织为心脏为例，心脏的解剖结构可以包括：心脏->左心房->腔、内膜、心肌；心脏->右心房->腔、内膜、心肌。

沿用将跨媒体知识语义表达方法应用于超声扫描的实施例，该步骤S101具体是根据预设的语义描述，采用超声扫描器进行数据采集（参见图2）。本发明实施例对超声扫描器的类型不做具体限定，例如，超声扫描器可以为B超扫描探头，也可以为其他类型的超声扫描器。

超声扫描器采集的拓扑结构的数据信息可包括解剖结构各部位（一个拓扑结构可包括多个部位，各部位为子结构或分支）的断层扫描图像，第一种媒体表达方式为扫描断层的语义描述，扫描断层的语义描述对于非超声扫描医学工作者可能无法理解，因此，需要通过自动机将非可视化的医学断层扫描图像对齐成非超声扫描医学工作者能够理解的医学组织的解剖结构对应的三维医学图像。

示例性地，参见图2，跨媒体知识语义表达方法的执行主体为手机200，超声扫描医学工作者可根据预设的语义描述，通过一个B超扫描探头100扫描获得目标解剖结构的拓扑结构的医学断层扫描图像，B超扫描探头100扫描获得的某个解剖结构的拓扑结构的医学断层扫描图像可通过WiFi或其他传输方式传入手机200安装的APP（图2中手机200上的三维医学图像示意），一个解剖学的语义描述定义了该医学组织的解剖结构（图2中解剖学知识语义描述，一行表示一个语义句）输入APP，一个语义句相当于一条指令，指示B超扫描探头100进行数据采集，获得对应的拓扑结构的医学断层扫描图像。

本发明实施例中的语义句定义了目标解剖结构的拓扑结构，每个语义句的语义符可以通过APP指示超声扫描医学工作者用B超扫描探头获取相应部位的断层扫描图像并提取分割边界点。例如，直接在APP的显示界面显示该语义句，指示超声扫描医学工作者用B超扫描探头获取相应部位的断层扫描图像并提取分割边界点。本发明实施例中，分割边界点用于指示解剖结构中各部位的边界。

语义描述可由用户预先定义，具体地，在一些实施例中，语义描述G的表达式为：

G=(V,T,P,S₀) （1）；

公式（1）中，V是一有限语义产生式集合；

T是一有限词汇集，V与T不相交；

S₀是语义描述G的起始变量，S₀∈V；

P是一有限语义产生式集合，有限语义产生式集合包括多个产生式，每个产生式表示为A→α, 其中，A是一语义变量，A∈V，α是集合(V∪T)^*中的一串语义变量和词汇。

示例性地，实施一个解剖学知识语义描述文法G_pd = (V, T, P, S₀)，G_pd是基于一组断层扫描图像的解剖结构的语义知识表示：

V = {S₀, S, F, M, L}；

T = {c, f, m, l, e, t}；

其中，P包括：

S₀ → S t | S S₀；

S → c | c S | F L | F M L；

F →f e | f S e；

M→ m e | m S e | M M；

L → l e | l S e；

其中，“→”左边的语义符号可被“|”两边任一语义串替代。

V中的变量对应于具有以下语义之一的组织结构或子结构：

S₀、一个断层扫描；

S、一个包含单个分支或多个分支的组织结构或子结构；

F、多个分支的第一个分支；

L、多个分支的最后一个分支；

M、多个分支的其他分支（第一个分支和最后一个分支除外）。

除t外，T中的语义符对应于组织结构或子结构的一段，t表示组织结构或子结构描述的终止，其他语义符的语义如下：

c、主干组织或分支上的连续断层扫描图像段；

f、第一个分支上的第一个段；

l、第一个分支上的最后一个段；

m、多个分支的其他分支上的第一个段（第一个分支和最后一个分支除外）；

e、分支上的最后一个段（实际段的可用性可选）。

G_pd描述医学组织解剖结构中分支和合并的发展，其决定了可以描述的拓扑结构的种类（拓扑结构的种类可以被自动机解释），从G_pd导出的每个语义句都是一个解剖结构描述。虽然解剖结构的几何形状可变化，但解剖结构的拓扑结构是保持不变的，因此G_pd使用解剖结构的子结构和分支的递归定义，这样G_pd就能够描述非常复杂的拓扑结构（如，胆囊及胆管）。

解剖结构的拓扑结构的一个例子如下：

S₀

S S₀

c S S₀

c c S₀

c c S S₀；

c c F L S₀

c c f e L S₀

c c f e l e S₀；

c c f e l e S S0

c c f e l e F M L S0

c c f e l e f e M L S0；

c c f e l e f e m e L S0

c c f e l e f e m e l e S0；

c c f e l e f e m e l e S t

c c f e l e f e m e l e F L t；

c c f e l e f e m e l e f S e L t

c c f e l e f e m e l e f c e L t；

c c f e l e f e m e l e f c e l S e t；

c c f e l e f e m e l e f c e l c e t。

在步骤S102中，将数据采集获得的拓扑结构的数据信息输入预设的与语义描述对应的自动机的堆栈中，其中，自动机用于进行跨媒体知识映射，自动机包括一有限状态集、一输入词汇表和一堆栈，有限状态集用于指示自动机所包括的状态，输入词汇表用于指示自动机所包括的词汇。

在一些实施例中，自动机M的表达式为：

（2）；

公式（2）中，

是一有限状态集；

是一个输入词汇表；

是一堆栈字母表；

是从

到有限子集

的映射，其中

代表词汇空缺，

是堆栈字母表的任意组合；

q₀是初始状态，

；

是堆栈表初始字母；

F是一个终止状态集，

。

该步骤中，自动机M与步骤S101中的语义描述G相对应。

在步骤S103中，通过自动机将数据信息进行映射，获得数据采集所采集的目标对象的子结构和/或分支分别对应的关键帧。

具体地，在通过自动机将数据信息进行映射，获得数据采集所采集的目标对象的子结构和/或分支分别对应的关键帧时，可包括但不限于如下步骤：

S1031、自初始状态

，执行

到有限子集

的映射，获取自动机的当前状态q；

S1032、当当前状态q在有限状态集

所包含的状态内（即

）时，获取当前输入自动机的堆栈中的数据信息

，若当前输入自动机的堆栈中的数据信息属于输入词汇表

中的词汇且堆栈字母Z在栈顶，则根据堆栈中的数据信息生成字符串

，

，字符串

能够用于生成目标对象的子结构和/或分支分别对应的关键帧，并且以字符串

替代堆栈字母Z，自动机进入新状态，直至新状态在终止状态集F所包含的状态内或堆栈为空，其中堆栈字母Z是指生成上一个拓扑结构对应的可视化语义表达的所有数据信息。

进一步地，在一些实施例中，跨媒体知识语义表达方法还可包括如下步骤：当当前状态在有限状态集

所包含的状态内时，获取当前输入自动机的堆栈中的数据信息，若当前输入自动机的堆栈中的数据信息为词汇空缺

，自动机则不需处理堆栈中的数据信息，并且自动机进入新状态，直至新状态在终止状态集F所包含的状态内或堆栈为空。

在一可行的实现方式中，自动机映射数据信息的过程如下：

（1）置自动机M的初始状态为 q₀；

（2）当条件(自动机M的当前状态

)满足时，循环执行 {

（3）当条件(当前输入自动机的堆栈中的数据信息

，并且堆栈字母

在栈顶) 满足时，执行 {

（4）自动机M进入新状态

；

（5）以字符串

替代堆栈字母Z}；

（6）否则，若(当前输入自动机的堆栈中的数据信息

)执行 {

（7）自动机M忽略输入词汇，进入新状态

；

（8）以字符串

替代堆栈字母Z}；

（9）若(新状态 q∈F 或堆栈变空)；

（10）停机。

（11）否则，

（12）继续执行循环}。

对应于上述实施例中的G_pd，相应的自动机M_tg 可以用来解释G_pd导出的语义句：

；

；

，

；

F =

；

是从

到有限子集

的映射：

、

；

、

；

；

；

；

；

、

；

、

；

、

；

、

；

、

；

、

；

、

；

、

；

；

；

；

；

。

自动机M_tg按顺序读取表示断层扫描图像的终端字符串（字符串

包括该终端字符串），并根据当前状态、当前输入字符（即当前输入自动机的堆栈中的数据信息）和当前栈顶字母，从上述

到有限子集

的映射集中采取一个映射操作

来生成关键帧。使用空堆栈作为成功解释拓扑结构的语义描述的信号，因此没有明确定义最终状态(F=

)。一个堆栈字母Z∈{Z₀, Z_s, Z_f, Z_m, Z_l}是指前一个断层扫描图像中可用于生成当前断层扫描图像的所有信息。

参见图2，与语义描述对应的自动机也输入APP，自动机用于解释产生扫描断层，该扫描断层与三维医学图像匹配（图2中的知识语义跨媒体表达），生成该医学组织的解剖结构的关键帧（即关键图像）。

在步骤S104中，根据数据采集所采集的目标对象的子结构和/或分支分别对应的关键帧，生成拓扑结构的可视化语义表达，可视化语义表达为第二种媒体表达方式。

示例性地，跨媒体知识语义表达方法应用于超声扫描，目标对象的拓扑结构是指医学组织的解剖结构，数据信息为解剖结构各部位的断层扫描图像，第一种媒体表达方式为扫描断层的语义描述，第二种媒体表达方式为医学组织的解剖结构对应的三维医学图像。利用本发明实施例的跨媒体知识语义表达方法，将非可视化的医学断层扫描图像对齐成非超声扫描医学工作者能够理解的医学组织的解剖结构对应的三维医学图像。

与前述跨媒体知识语义表达方法的实施例相对应，本发明还提供了一种跨媒体知识语义表达装置的实施例。

参见图3，本发明实施例提供的一种跨媒体知识语义表达装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，一个或多个处理器执行可执行代码时，用于实现上述实施例中的跨媒体知识语义表达方法。

本发明实施例提供的跨媒体知识语义表达装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明实施例提供的跨媒体知识语义表达装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的跨媒体知识语义表达方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨媒体知识语义表达方法，其特征在于，所述方法包括：

根据所述数据采集所采集的所述目标对象的子结构和/或所述分支分别对应的关键帧，生成所述拓扑结构的可视化语义表达，所述可视化语义表达为第二种媒体表达方式；

所述语义描述G的表达式为：

G=(V,T,P,S₀)；

其中，V是一有限语义产生式集合；

T是一有限词汇集，V与T不相交；

S₀是所述语义描述G的起始变量，S₀∈V；

所述自动机M的表达式为：

；

其中，

是一有限状态集；

是一个输入词汇表；

是一堆栈字母表；

是从

到有限子集

的映射，其中

代表词汇空缺，

是堆栈字母表的任意组合；

q₀是初始状态，

；

是堆栈表初始字母；

F是一个终止状态集，

。

所述通过所述自动机将所述数据信息进行映射，获得所述数据采集所采集的所述目标对象的子结构和/或所述分支分别对应的关键帧，包括：

获取所述自动机的当前状态；

当所述当前状态在所述有限状态集

，所述字符串

，

2.根据权利要求1所述的跨媒体知识语义表达方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的跨媒体知识语义表达方法，其特征在于，所述跨媒体知识语义表达方法应用于超声扫描，所述目标对象的拓扑结构是指医学组织的解剖结构，所述数据信息为所述解剖结构各部位的断层扫描图像，所述第一种媒体表达方式为扫描断层的语义描述，所述第二种媒体表达方式为所述医学组织的解剖结构对应的三维医学图像。

4.根据权利要求3所述的跨媒体知识语义表达方法，其特征在于，所述根据预设的语义描述，进行数据采集，包括：

根据预设的语义描述，采用超声扫描器进行数据采集。

5.一种跨媒体知识语义表达装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-4中任一项所述的跨媒体知识语义表达方法。

6.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-4中任一项所述的跨媒体知识语义表达方法。