CN112860864B - 一种基于概念图的故事语义可视化呈现方法 - Google Patents
一种基于概念图的故事语义可视化呈现方法 Download PDFInfo
- Publication number
- CN112860864B CN112860864B CN202110157054.9A CN202110157054A CN112860864B CN 112860864 B CN112860864 B CN 112860864B CN 202110157054 A CN202110157054 A CN 202110157054A CN 112860864 B CN112860864 B CN 112860864B
- Authority
- CN
- China
- Prior art keywords
- story
- nodes
- concept
- nested
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012800 visualization Methods 0.000 title claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 7
- 238000007667 floating Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 6
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 241000251468 Actinopterygii Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 241000219357 Cactaceae Species 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241000892865 Heros Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000010985 leather Substances 0.000 description 2
- 244000144972 livestock Species 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 235000005770 birds nest Nutrition 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 235000005765 wild carrot Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开揭示了一种基于概念图的故事语义可视化呈现方法,包括步骤:采用自动标注的方式实现故事的外在特征的语义标注;采用自动标注的方式实现故事的主题特征的语义标注;采用人工标注的方式实现故事的内容结构特征的语义标注;以嵌套概念图的方式对步骤S100至S300标注的结果进行组织并可视化呈现。以此,本公开提供了一种机器和人都容易理解并处理的语义描述形式,改善了故事这一类型内容的人机交互。这可以应用到各类故事资源的信息系统中,借助此语义标注及其可视化呈现形式,可以对故事资源的内容进行可视化描述,从而为用户提供交互更加友好的资源浏览和检索服务。
Description
技术领域
本公开涉及人机交互领域,尤其涉及一种基于概念图的故事语义可视化呈现方法。
背景技术
现有技术对于实现故事的形式化描述仍存在明显的缺陷,主要表现在:(1)不同的故事的语义描述形式往往仅关注故事某一方面的特征,缺少完整的对故事进行描述的概念模型;(2)现有用于描述故事资源语义的技术难以在语义信息的准确全面性和计算机可理解性之间达到平衡。
这导致自动化的信息检索系统难以有效利用语义描述信息对故事进行高质量的表达,现有技术缺少具有良好可理解性的可视化呈现方式,影响了故事这一类型内容的人机交互。
发明内容
鉴于此,本公开揭示了基于概念图的故事语义可视化呈现方法,包括如下步骤:
S100、采用自动标注的方式实现故事的外在特征的语义标注,包括:
通过现有的百科全书、百科网站和搜索引擎,检索所述故事的名称以获取故事的描述信息,并从故事的描述信息中提取来源、作者、版权、民族、故事发生的时代/时间、故事流传地域、故事发生的地点、故事的主要角色,其中:
故事的名称、来源、作者、版权、民族、故事的主要角色为数值型属性,根据需要选择:整型、浮点型、字符型、字符串中的某一合适类型;故事发生的时代/时间、故事流传地域、故事发生的地点则根据需要选择:时间、地点的结构化描述方式;
S200、采用自动标注的方式实现故事的主题特征的语义标注,包括:
对于文本类型的故事,对故事的文本进行分析,从中查找主题分类索引关键词,利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
对于非文本类型的故事,包括音频、视频、图片类型的故事,则根据步骤S100所述的故事的描述信息中提取主题分类索引关键词,再利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
S300、采用人工标注的方式实现故事的内容结构特征的语义标注,包括:
根据预先定义的:多个故事的结构属性以及这些结构属性在故事情节发展中的次序所对应的取值,采用人工标注的方式对故事情节的语义进行如下描述:描述所述故事的结构属性、所述故事的结构属性在故事情节发展中的次序所对应的取值;其中,所述故事的结构属性按照故事的不同阶段的情节而分类;
S400、以嵌套概念图的方式对步骤S100至S300标注的结果进行组织并可视化呈现,包括如下子步骤:
S4001、将所述故事以简单非嵌套概念节点的方式组织;
S4002、将所述故事的外在特征分别定义为多个第一类属性节点,每个第一类属性节点的取值范围定义为第一类概念节点;
根据所述故事的主题特征的数量,定义相应数量的第二类属性节点,每个第二类属性节点的取值范围定义为第二类概念节点,其值为各个主题特征所对应的值;
S4003、将所述故事的外在特征和主题特征,以简单图节点的方式组织,并可视化呈现;
S4004、对所述故事的内容结构特征,以嵌套节点的方式组织,以便在嵌套概念图的嵌套节点内部对故事的内容结构特征进行进一步描述,其中,
嵌套节点内部包括第三类概念节点,其对应所述故事的情节中的角色;
嵌套节点内部还包括第三类属性节点,其对应所述故事的结构属性;所述第三类属性节点的取值范围定义为第四类概念节点,其对应所述故事的结构属性的具体情节描述;
所述第四类概念节点可以是简单非嵌套的节点,也可以是嵌套节点:
当其是简单非嵌套的节点时,表示当前结构属性的具体情节描述无法再按照故事的结构属性的分类进行细分;
当其是嵌套节点时,则表示结构属性的具体情节描述能够按照结构属性的分类进行细分,这种细分是一个递归的过程,直到故事内容不需要继续分解为止。
优选的,步骤S400之后,所述方法还包括如下步骤:
S500、对语义标注的结果进行存储,存储的方式包括实现基于OWL语法和基于图数据结构的存储方式,其中:
基于OWL语法的存储方式的实现方法包括:对于嵌套概念图中的每一个节点、每一条边的名称分别对应于故事描述词汇中的概念和属性,与属性边直接相连的节点分别为属性的所属的实体和取值;按照此对应关系,以OWL的语法形式对表示故事的嵌套概念图进行描述;
基于图数据结构存储方式的实现方法包括:以邻接矩阵的方式对描述故事的图进行存储,其中,通过对邻接矩阵中的元素设置标记位的方式,用来标记对应节点是否为嵌套节点;若节点为嵌套节点,则定义补充的邻接矩阵描述该节点内部的结构。
优选的,步骤S500之后,所述方法还包括如下步骤:
S600、对所述存储的故事进行可视化,包括:
S6001、当仅对故事的外在特征和主题特征进行可视化而不需要考虑嵌套节点的内部结构时,忽略嵌套节点内部的结构信息,将嵌套节点当做简单非嵌套节点显示,显示第一类、第二类概念节点,和第一类、第二类属性节点,并分别将第一类、第二类概念节点和他们对应的第一类、第二类属性节点相连接,以建立概念节点和属性节点之间的关系;其中,第一类、第二类概念节点以标记有概念名称的矩形呈现,第一类、第二类属性节点以标记有属性名称的椭圆形呈现,在概念节点和其对应的属性节点之间以直线连接;
S6002、当对故事的内容结构特征可视化时,在步骤S6001的基础上进一步显示嵌套节点内部的各种概念节点和属性节点,且当鼠标点击需要显示的嵌套节点时,嵌套节点中的内容通过步骤S6001来呈现,这是一个递归的可视化过程;
S6003、当从所显示的嵌套节点内容中退出时,点击与当前嵌套节点相邻的概念节点则退回至上一层的浏览。
优选的,步骤S500之后,所述方法还包括如下步骤:
S700、根据不同的存储方式提供多样的查询处理机制,其中:
对于基于OWL语法的存储方式,利用OWL推理机实现对于故事资源的查询处理;对于基于图数据结构的存储方式,利用图同构操作处理故事资源集合上的查询请求;
其中,
A、对于结果为Yes/No类型的查询,通过如下基于OWL推理机的方法作为主导的查询处理方式:
该方法输入包括:OWL方式描述的故事资源集合,查询条件Cq1;
该方法输出包括:满足查询条件Cq1的查询结果集合answers1,作为满足查询条件Cq1的资源集合;
该方法包括步骤:
S701:将查询条件Cq1表示成OWL推理机能够理解的概念描述形式;
S702:对于查询结果集合answers1中的每一个资源ans1,利用OWL推理机的实例检测服务instanceChecking(Cq1,ans1)判断资源ans1是否为查询条件Cq1的实例,如果结果为真,将资源ans1做为一个查询结果放入查询结果集合answers1中;
S703:返回查询结果集合answers1中;
B、对于查询结果为符合某种故事特征的查询,通过如下基于图算法的查询处理方法为主导的查询处理方式:
该方法的输入:有向图方式描述的故事资源集合G,查询概念Cq2;
该方法的输出:满足查询概念Cq2的查询结果集合answers2,作为满足查询概念Cq2的资源集合;
该方法包括步骤:
S711:如果故事资源集合G的规模超过了设定的图规模阈值,将故事资源集合G分解为若干个子图的集合subG;
S712:将查询概念Cq2转化为树型结构treeCq;
S713:对于若干个子图的集合subG中的每一个图cg,计算树型结构treeCq和图cg之间的图同态结果,并将结果存入查询结果集合answers2中;
S714:返回查询结果集合answers2。
以此,本公开提供了一种机器和人都容易理解并处理的语义描述形式,改善了故事这一类型内容的人机交互。这可以应用到各类故事资源的信息系统中,借助此语义标注及其可视化呈现形式,可以对故事资源的内容进行可视化描述,从而为用户提供交互更加友好的资源浏览和检索服务。
附图说明
图1是本公开一个实施例中方法的示意图;
图2是本公开一个实施例中的模型示意图;
图3是本公开一个实施例中的语义标注示意图;
图4是本公开一个实施例中的语义标注后的表达示意图。
具体实施方式
为了使本领域技术人员理解本公开所披露的技术方案,下面将结合实施例及有关附图1至图4,对各个实施例的技术方案进行描述,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。本公开所采用的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们的任何变形,意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、或方法、或系统、或产品或设备没有限定于已列出的步骤或单元,而是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其他实施例相结合。
在一个实施例中,本公开揭示了一种基于概念图的故事语义可视化呈现方法,包括步骤:
S10、采用自动标注的方式实现故事的外在特征的语义标注;
S20、采用自动标注的方式实现故事的主题特征的语义标注;
S30、采用人工标注的方式实现故事的内容结构特征的语义标注;
S40、以嵌套概念图的方式对步骤S10至S30标注的结果进行组织并可视化呈现。
对于上述实施例而言,其中,S10至S30用于实现一种机器和人都容易理解并处理的语义描述形式,S40则用于改善故事这一类型内容的人机交互。这可以应用到各类故事资源的信息系统中,借助此语义标注及其可视化呈现形式,可以对故事资源的内容进行可视化描述,从而为用户提供交互更加友好的资源浏览和检索服务。
需要说明的是,本公开所称的故事可以包括国内外民间故事,但是这仅仅属于故事的狭义理解,更广义的故事则可以拓宽到自传、传记、历史文献等。推而广之,本公开所称的故事还可以拓宽到任何一般性的记事,无论其是虚构的还是真实的。
为了更加有利于理解本公开的发明构思,进一步的,参见图1,在另一个实施例中,本公开揭示了一种基于概念图的故事语义可视化呈现方法,包括如下步骤:
S100、采用自动标注的方式实现故事的外在特征的语义标注,包括:
通过现有的百科全书、百科网站和搜索引擎,检索所述故事的名称以获取故事的描述信息,并从故事的描述信息中提取来源、作者、版权、民族、故事发生的时代/时间、故事流传地域、故事发生的地点、故事的主要角色,其中:
故事的名称、来源、作者、版权、民族、故事的主要角色为数值型属性,根据需要选择:整型、浮点型、字符型、字符串中的某一合适类型;故事发生的时代/时间、故事流传地域、故事发生的地点则根据需要选择:时间、地点的结构化描述方式;
S200、采用自动标注的方式实现故事的主题特征的语义标注,包括:
对于文本类型的故事,对故事的文本进行分析,从中查找主题分类索引关键词,利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
对于非文本类型的故事,包括音频、视频、图片类型的故事,则根据步骤S100所述的故事的描述信息中提取主题分类索引关键词,再利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
S300、采用人工标注的方式实现故事的内容结构特征的语义标注,包括:
根据预先定义的:多个故事的结构属性以及这些结构属性在故事情节发展中的次序所对应的取值,采用人工标注的方式对故事情节的语义进行如下描述:描述所述故事的结构属性、所述故事的结构属性在故事情节发展中的次序所对应的取值;其中,所述故事的结构属性按照故事的不同阶段的情节而分类;
S400、以嵌套概念图的方式对步骤S100至S300标注的结果进行组织并可视化呈现,包括如下子步骤:
S4001、将所述故事以简单非嵌套概念节点的方式组织;
S4002、将所述故事的外在特征分别定义为多个第一类属性节点,每个第一类属性节点的取值范围定义为第一类概念节点;
根据所述故事的主题特征的数量,定义相应数量的第二类属性节点,每个第二类属性节点的取值范围定义为第二类概念节点,其值为各个主题特征所对应的值;
S4003、将所述故事的外在特征和主题特征,以简单图节点的方式组织,并可视化呈现;
S4004、对所述故事的内容结构特征,以嵌套节点的方式组织,以便在嵌套概念图的嵌套节点内部对故事的内容结构特征进行进一步描述,其中,
嵌套节点内部包括第三类概念节点,其对应所述故事的情节中的角色;
嵌套节点内部还包括第三类属性节点,其对应所述故事的结构属性;所述第三类属性节点的取值范围定义为第四类概念节点,其对应所述故事的结构属性的具体情节描述;
所述第四类概念节点可以是简单非嵌套的节点,也可以是嵌套节点:
当其是简单非嵌套的节点时,表示当前结构属性的具体情节描述无法再按照故事的结构属性的分类进行细分;
当其是嵌套节点时,则表示结构属性的具体情节描述能够按照结构属性的分类进行细分,这种细分是一个递归的过程,直到故事内容不需要继续分解为止。
对于上述实施例,其针对狭义的故事,详细描述了如何实施S100至S300的标记以及S400的可视化呈现。能够理解,其中故事的名称,可以是名称,也可以是任何该故事中的关键词,当关键词越不具有代表性时,其效率越低,反之则效率越高。
因此,更进一步的,如果针对广义的故事或一般性的记事,当其不具备代表性的名称时,则可以利用AI技术进行机器学习,并且边学习边自动迭代执行S100以习得具有代表性的关键词。当获得关键词之后,再次执行S100则可以从故事或记事之外的百科或搜索引擎这些外部资源,获取其描述信息,并从描述信息中提取时间、地点、人、物等特征。本公开正是运用了这种从外部资源获取有价值信息的特征作为外在特征。
在另一个实施例中,步骤S400之后,所述方法还包括如下步骤:
S500、对语义标注的结果进行存储,存储的方式包括实现基于OWL语法和基于图数据结构的存储方式,其中:
基于OWL语法的存储方式的实现方法包括:对于嵌套概念图中的每一个节点、每一条边的名称分别对应于故事描述词汇中的概念和属性,与属性边直接相连的节点分别为属性的所属的实体和取值;按照此对应关系,以OWL的语法形式对表示故事的嵌套概念图进行描述;
基于图数据结构存储方式的实现方法包括:以邻接矩阵的方式对描述故事的图进行存储,其中,通过对邻接矩阵中的元素设置标记位的方式,用来标记对应节点是否为嵌套节点;若节点为嵌套节点,则定义补充的邻接矩阵描述该节点内部的结构。
能够理解,本实施例意在针对前述语义标注提出适配的存储方式。
在另一个实施例中,步骤S500之后,所述方法还包括如下步骤:
S600、对所述存储的故事进行可视化,包括:
S6001、当仅对故事的外在特征和主题特征进行可视化而不需要考虑嵌套节点的内部结构时,忽略嵌套节点内部的结构信息,将嵌套节点当做简单非嵌套节点显示,显示第一类、第二类概念节点,和第一类、第二类属性节点,并分别将第一类、第二类概念节点和他们对应的第一类、第二类属性节点相连接,以建立概念节点和属性节点之间的关系;其中,第一类、第二类概念节点以标记有概念名称的矩形呈现,第一类、第二类属性节点以标记有属性名称的椭圆形呈现,在概念节点和其对应的属性节点之间以直线连接;
S6002、当对故事的内容结构特征可视化时,在步骤S6001的基础上进一步显示嵌套节点内部的各种概念节点和属性节点,且当鼠标点击需要显示的嵌套节点时,嵌套节点中的内容通过步骤S6001来呈现,这是一个递归的可视化过程;
S6003、当从所显示的嵌套节点内容中退出时,点击与当前嵌套节点相邻的概念节点则退回至上一层的浏览。
显而易见的,本实施例是在前述标注、组织和可呈现的基础上,进一步提供具体的交互方案。这就是说,虽然前述实施例提供了机器和人都容易理解的表达方式,已经部分改善了人机交互,但是本实施例则更进一步的指出了如何交互。
在另一个实施例中,步骤S500之后,所述方法还包括如下步骤:
S700、根据不同的存储方式提供多样的查询处理机制,其中:
对于基于OWL语法的存储方式,利用OWL推理机实现对于故事资源的查询处理;对于基于图数据结构的存储方式,利用图同构操作处理故事资源集合上的查询请求;
其中,
A、对于结果为Yes/No类型的查询,通过如下基于OWL推理机的方法作为主导的查询处理方式:
该方法输入包括:OWL方式描述的故事资源集合,查询条件Cq1;
该方法输出包括:满足查询条件Cq1的查询结果集合answers1,作为满足查询条件Cq1的资源集合;
该方法包括步骤:
S701:将查询条件Cq1表示成OWL推理机能够理解的概念描述形式;
S702:对于查询结果集合answers1中的每一个资源ans1,利用OWL推理机的实例检测服务instanceChecking(Cq1,ans1)判断资源ans1是否为查询条件Cq1的实例,如果结果为真,将资源ans1做为一个查询结果放入查询结果集合answers1中;
S703:返回查询结果集合answers1中;
B、对于查询结果为符合某种故事特征的查询,通过如下基于图算法的查询处理方法为主导的查询处理方式:
该方法的输入:有向图方式描述的故事资源集合G,查询概念Cq2;
该方法的输出:满足查询概念Cq2的查询结果集合answers2,作为满足查询概念Cq2的资源集合;
该方法包括步骤:
S711:如果故事资源集合G的规模超过了设定的图规模阈值,将故事资源集合G分解为若干个子图的集合subG;
S712:将查询概念Cq2转化为树型结构treeCq;
S713:对于若干个子图的集合subG中的每一个图cg,计算树型结构treeCq和图cg之间的图同态结果,并将结果存入查询结果集合answers2中;
S714:返回查询结果集合answers2。
在另一个实施例中,关于语义标注狭义的民间故事,本公开提供如下的具体实施方式:
用于民间故事语义标注的词汇,按民间故事的属性分为3类:
(1)描述民间故事外在特征的词汇,具体包括:
来源;作者;版权;故事名称;民族;故事发生的时代/时间;故事流传地域;故事发生的地点;主要角色。其中来源、作者、版权、故事名称、民族、主要角色为数值型属性,即属性取值类型为基本数据类型(整形、浮点型、字符型、字符串);故事发生的时代/时间、故事流传地域、故事发生的地点的取值范围为系统预定义的关于时间、地点的结构化描述。
(2)描述民间故事的故事类型、故事主题特征,以及用于建立主题分类索引的关键字;同时建立故事类型和主题特征之间的联系:
示例性的23种主题特征如下所述:
1)关于神话
2)关于动物
3)关于禁忌
4)关于魔术魔法
5)关于死亡和死者
6)关于奇迹
7)关于杀人恶魔
8)关于某种品格或能力的测试
9)关于聪明与愚蠢
10)关于欺骗和技俩
11)关于财富逆转
12)关于主宰和掌控未来
13)关于机会和命运
14)关于社会
15)关于奖励和惩罚
16)关于俘虏和逃犯
17)关于非同一般的残忍和暴行
18)关于婚姻和男女关系
19)关于生命的起源和本质
20)关于宗教
21)关于品格特征
22)关于幽默
23)各种主题的组合
此外,将不同类型的故事中出现的高频词汇定义为类型索引关键字,建立类型索引关键字集合;
将不同主题的故事中出现的高频词汇定义为主题分类索引关键字,建立主题分类索引关键字集合;
一个故事类型可以涉及多个故事主题;类似的,一个故事主题也可以涉及多个故事类型。因此,对于一个民间故事资源,可实用多个类型和多个主题对其进行描述。
(3)描述民间故事内容结构的功能属性:
定义如下31种用于描述故事内容的功能属性:
1)离开家:家庭成员离开家;
2)禁令:针对于某英雄人物的禁令等;
3)废除:禁令被违背或废除;
4)监视:坏人的监视行为
5)收信:坏人得到了关于自己罪行的消息
6)耍花招:坏人为了继续侵占财产而耍花招隐藏犯罪
7)同谋:受害者被坏人欺骗成为敌人的同谋
8)罪行:坏人的罪行对家人带来了伤害
9)缺少:一些人缺少或渴望得到什么东西
10)调解仲裁:英雄被要求做一些事情或允许某人做什么事情
11)开始反击:开始反击行为
12)离开:英雄离开家
13)捐赠者的行为:英雄在获得某些超能力或帮助前接受的考验、质问、攻击等;
14)英雄的回应:英雄对捐赠者的回应
15)提供或接受某种超能力:英雄使用超能力
16)时间或空间旅行:在不同的时空中行走
17)斗争:英雄和恶人的直接斗争
18)树立英雄形象:树立英雄的形象
19)胜利:恶人被击败
20)清偿厄运:初始的厄运或者缺少的东西得到了清偿
21)归来:英雄归来
22)追杀:追杀英雄
23)拯救:拯救英雄
24)匿名抵达:英雄到达了一个无人认识的地方
25)无根据的声明:假英雄声明一些事情
26)艰难的任务:英雄立誓要完成一项艰难的任务
27)完成任务:任务完成了
28)认出英雄:英雄被找到认出
29)坏人暴露:坏人被暴露或揭发
30)惩罚:坏人受到惩罚
31)结婚:结婚并继承财产和权位
将民间故事按照故事情节的发展在结构上依次分为6个阶段:准备、矛盾激化、转折、斗争、归来、赞誉。则以上31种属性可归属于不同的阶段:其中1-7为准备阶段,8-10为矛盾激化阶段、11-15为转折阶段、16-18为斗争阶段、19-26为归来阶段、27-31为赞誉。
关于故事类型的格式说明:
可示例性的分为如下一、二、三、四、五总计5大类型,每种类型下面细分具体类型,格式可示例为:
类型编号 类型名称
一、动植物及物品故事
1-99 野兽
1 兔子装死诱人捡
2 用尾巴钓鱼上大当
……
100-149 野兽和家畜
100 猫的看家本领没有教老虎
……
200-219 家畜
200 狗上猫的当
……
220-249 禽鸟类
220 飞鸟把乌龟带上了高空
……
250-274 鱼类
250 鱼虾跳龙门
……
275-299 其他
275 狐狸和青蛙赛跑
……
二、一般民间故事 300-1199
300 云中落绣鞋
……
神奇的亲属(400-459)
其中,神奇的妻子(400-424)
400 凡夫寻仙妻
……
神奇的丈夫(425-459)
425 受魔咒的丈夫
……
奇异的难题(460-499)
其中,疑问获解(460-462)
460 西天问活佛 问三不问四
……
其他难题(463-499)
463 神奇妻子美而慧 老实丈夫受刁难
……
神奇的帮助者(500-559)
其中,野人和精怪的帮助(502-504)
500 精怪摘瘤又还瘤
……
其中,动物的帮助(530-559)
530 狗耕田
……
神奇的宝物(560-649)
560 宝石戒指
……
神奇的药方(610-619)
610 精怪大意泄秘方(二人行)
……
奇异的能力和知识(650-699)
650 神力勇士
……
其他神奇故事(700-749)
700 小不点儿(拇指汤姆)
……
749B 相恋不得见 人死心不死
宗教神仙故事750-849
其中,神的赏罚(因果报应)(750-779)
750 施者有福
……
其中,真相大白(780-789)
780 歌唱的心
……
其他难以归类的宗教神仙故事(815-849)
825 陆沉的故事
……
生活故事 850-999
其中,选女婿和嫁女儿的故事(850-869)
850 对求婚者的考试
……
其中,娶亲和巧媳妇的故事(870-879)
870 巧女妙解两难之题
……
其中,恋人之忠贞和友人之真诚的故事(880-899)
880 恋人殉情
……
其中,有用的话(910-915)
910 饥饿是最好的调料
……
其中,聪明的言行(920-929)
920 小人物解答大问题
……
其中,命运的故事(930-949)
930 如何避免命中注定的死亡
……
其中,盗贼和谋杀的故事(950-969)
950 蛛网救人
……
其他生活故事(970-999)
970 连理枝
……
恶地主恶霸与笨魔的故事1000-1199
其中,与雇工的故事(1000-1029)
1000 地主出难题 长工有妙计
……
其中,与人合伙的故事(1030-1059)
1030 分庄稼
其中,与人比赛的故事(1060-1114)
1060 扔物比力气
其中,让恶霸蠢魔上当的故事(1130-1144)
1130 假名谐音巧脱身
……
三、笑话、趣事 1200-1999
笨人的故事 1200-1349
1200 傻子运货 压死驮马
……
夫妻间的笑话和趣事 1350-1439
1350 夫妻打赌不说话
……
女人的笑话和趣事 1440-1524
1440 臭头皇后
……
男人的笑话和趣事 1525-1874
1525 妙贼妙计 先说后偷
……
其中,僧侣的笑话和趣事(1725-1849)
1725 各人祈求的天气不同,女神尽皆赐予
……
各行各业的笑话和趣事(1850-1874)
1850 郎中、棺材店老板和僧侣
……
四、程式故事 2000-2399
连环故事 2000-2199
……
强中更有强中手 2200-2031
2200 一物克一物
其他程式故事 2300-2399
2300 燕雀衔谷无穷尽(使国王失去耐心)
……
五、难以分类的故事 2400-2499
2400 一张牛皮大的地(用牛皮量地)
……
进一步参见图2,其示意了中国民间故事概念模型,其中,一个民间故事的描述包括故事类型、故事主题和故事结构三部分,构成故事主题的元素包括事件、事物、角色,故事结构由若干个具有前后次序关系的功能属性组成,一个功能属性主要包括事件和角色;
正是通过上述示例列举的故事分类以及图2的概念模型,本公开充分利用不同类型的特征、概念的定义,来实现不同语义标注,正如前述步骤S10至S30,或S100至S300所示的那样。
在标注时,为了方便理解,参见图3,其示意了本公开的人工标注与自动标注分工,其中左上角和正下方虚线框内容的故事特征描述,即故事外在特征、故事类型和故事主题,可通过索引关键字实现自动标注,其余虚线框内的故事特征描述,即故事结构的描述,需要人工标注完成;
通过本公开上述实施例所揭示的方法,参见图4,其对嵌套概念图的语义标注结果描述举例,其中:
矩形框表示概念节点;
节点可以是原子节点,即节点内部无结构;节点也可以是嵌套结点节点,即节点内部可以嵌套概念图的方式表示,例如节点故事1和节点故事2,依次递推,构成了一个最简单的、容易理解的语义描述结果的嵌套概念图表示。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作、步骤、乃至执行其的模块、单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的方法,可实现为对应的功能单元、处理器乃至系统,其中所述系统的各部分既可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,各功能单元可以集成在一个处理单元中,也可以是各个单元单独存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为智能手机、个人数字助理、可穿戴设备、笔记本电脑、平板电脑)执行本公开的各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开的各实施例技术方案的范围。
Claims (4)
1.一种基于概念图的故事语义可视化呈现方法,包括如下步骤:
S100、采用自动标注的方式实现故事的外在特征的语义标注,包括:
通过现有的百科全书、百科网站和搜索引擎,检索所述故事的名称以获取故事的描述信息,并从故事的描述信息中提取来源、作者、版权、民族、故事发生的时代/时间、故事流传地域、故事发生的地点、故事的主要角色,其中:
故事的名称、来源、作者、版权、民族、故事的主要角色为数值型属性,根据需要选择:整型、浮点型、字符型、字符串中的某一合适类型;故事发生的时代/时间、故事流传地域、故事发生的地点则根据需要选择:时间、地点的结构化描述方式;
S200、采用自动标注的方式实现故事的主题特征的语义标注,包括:
对于文本类型的故事,对故事的文本进行分析,从中查找主题分类索引关键词,利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
对于非文本类型的故事,包括音频、视频、图片类型的故事,则从根据步骤S100所述的故事的描述信息中提取主题分类索引关键词,再利用预设的主题分类索引关键词和主题特征分类的关系,完成对故事的主题特征的自动标注;
S300、采用人工标注的方式实现故事的内容结构特征的语义标注,包括:
根据预先定义的:多个故事的结构属性以及这些结构属性在故事情节发展中的次序所对应的取值,采用人工标注的方式对故事情节的语义进行如下描述:描述所述故事的结构属性、所述故事的结构属性在故事情节发展中的次序所对应的取值;其中,所述故事的结构属性按照故事的不同阶段的情节而分类;
S400、以嵌套概念图的方式对步骤S100至S300标注的结果进行组织并可视化呈现,包括如下子步骤:
S4001、将所述故事以简单非嵌套概念节点的方式组织;
S4002、将所述故事的外在特征分别定义为多个第一类属性节点,每个第一类属性节点的取值范围定义为第一类概念节点;
根据所述故事的主题特征的数量,定义相应数量的第二类属性节点,每个第二类属性节点的取值范围定义为第二类概念节点,其值为各个主题特征所对应的值;
S4003、将所述故事的外在特征和主题特征,以简单图节点的方式组织,并可视化呈现;
S4004、对所述故事的内容结构特征,以嵌套节点的方式组织,以便在嵌套概念图的嵌套节点内部对故事的内容结构特征进行进一步描述,其中,
嵌套节点内部包括第三类概念节点,其对应所述故事的情节中的角色;
嵌套节点内部还包括第三类属性节点,其对应所述故事的结构属性;所述第三类属性节点的取值范围定义为第四类概念节点,其对应所述故事的结构属性的具体情节描述;
所述第四类概念节点是简单非嵌套的节点,或是嵌套节点:
当其是简单非嵌套的节点时,表示当前结构属性的具体情节描述无法再按照故事的结构属性的分类进行细分;
当其是嵌套节点时,则表示结构属性的具体情节描述能够按照结构属性的分类进行细分,这种细分是一个递归的过程,直到故事内容不需要继续分解为止。
2.如权利要求1所述的方法,其中,步骤S400之后,所述方法还包括如下步骤:
S500、对语义标注的结果进行存储,存储的方式包括实现基于OWL语法和基于图数据结构的存储方式,其中:
基于OWL语法的存储方式的实现方法包括:对于嵌套概念图中的每一个节点、每一条边的名称分别对应于故事描述词汇中的概念和属性,与属性边直接相连的节点分别为属性的所属的实体和取值;按照此对应关系,以OWL的语法形式对表示故事的嵌套概念图进行描述;
基于图数据结构存储方式的实现方法包括:以邻接矩阵的方式对描述故事的图进行存储,其中,通过对邻接矩阵中的元素设置标记位的方式,用来标记对应节点是否为嵌套节点;若节点为嵌套节点,则定义补充的邻接矩阵描述该节点内部的结构。
3.如权利要求2所述的方法,其中,步骤S500之后,所述方法还包括如下步骤:
S600、对所述存储的故事进行可视化,包括:
S6001、当仅对故事的外在特征和主题特征进行可视化而不需要考虑嵌套节点的内部结构时,忽略嵌套节点内部的结构信息,将嵌套节点当做简单非嵌套节点显示,显示第一类、第二类概念节点,和第一类、第二类属性节点,并分别将第一类、第二类概念节点和他们对应的第一类、第二类属性节点相连接,以建立概念节点和属性节点之间的关系;其中,第一类、第二类概念节点以标记有概念名称的矩形呈现,第一类、第二类属性节点以标记有属性名称的椭圆形呈现,在概念节点和其对应的属性节点之间以直线连接;
S6002、当对故事的内容结构特征可视化时,在步骤S6001的基础上进一步显示嵌套节点内部的各种概念节点和属性节点,且当鼠标点击需要显示的嵌套节点时,嵌套节点中的内容通过步骤S6001来呈现,这是一个递归的可视化过程;
S6003、当从所显示的嵌套节点内容中退出时,点击与当前嵌套节点相邻的概念节点则退回至上一层的浏览。
4.如权利要求2所述的方法,其中,步骤S500之后,所述方法还包括如下步骤:
S700、根据不同的存储方式提供多样的查询处理机制,其中:
对于基于OWL语法的存储方式,利用OWL推理机实现对于故事资源的查询处理;对于基于图数据结构的存储方式,利用图同构操作处理故事资源集合上的查询请求;
其中,
A、对于结果为Yes/No类型的查询,通过如下基于OWL推理机的方法作为主导的查询处理方式:
该方法输入包括:OWL方式描述的故事资源集合,查询条件 Cq1;
该方法输出包括:满足查询条件Cq1的查询结果集合answers1,作为满足查询条件Cq1的资源集合;
该方法包括步骤:
S701:将查询条件Cq1表示成OWL推理机能够理解的概念描述形式;
S702:对于查询结果集合answers1中的每一个资源ans1,利用OWL推理机的实例检测服务instanceChecking(Cq1,ans1)判断资源ans1是否为查询条件Cq1的实例,如果结果为真,将资源ans1做为一个查询结果放入查询结果集合answers1中;
S703:返回查询结果集合answers1中;
B、对于查询结果为符合某种故事特征的查询,通过如下基于图算法的查询处理方法为主导的查询处理方式:
该方法的输入:有向图方式描述的故事资源集合G, 查询概念 Cq2;
该方法的输出:满足查询概念Cq2的查询结果集合answers2,作为满足查询概念Cq2的资源集合;
该方法包括步骤:
S711:如果故事资源集合G的规模超过了设定的图规模阈值,将故事资源集合G分解为若干个子图的集合subG;
S712:将查询概念Cq2转化为树型结构treeCq;
S713:对于若干个子图的集合subG中的每一个图cg,计算树型结构treeCq和图cg之间的图同态结果,并将结果存入查询结果集合answers2中;
S714:返回查询结果集合answers2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157054.9A CN112860864B (zh) | 2021-02-05 | 2021-02-05 | 一种基于概念图的故事语义可视化呈现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157054.9A CN112860864B (zh) | 2021-02-05 | 2021-02-05 | 一种基于概念图的故事语义可视化呈现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112860864A CN112860864A (zh) | 2021-05-28 |
CN112860864B true CN112860864B (zh) | 2022-11-08 |
Family
ID=75988625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157054.9A Active CN112860864B (zh) | 2021-02-05 | 2021-02-05 | 一种基于概念图的故事语义可视化呈现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112860864B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8451292B2 (en) * | 2009-11-23 | 2013-05-28 | National Cheng Kung University | Video summarization method based on mining story structure and semantic relations among concept entities thereof |
CN102707949B (zh) * | 2012-04-26 | 2015-01-14 | 清华大学 | 一种基于本体的可视化概念建模方法 |
IN2013CH01237A (zh) * | 2013-03-21 | 2015-08-14 | Infosys Ltd | |
US9710570B2 (en) * | 2014-07-14 | 2017-07-18 | International Business Machines Corporation | Computing the relevance of a document to concepts not specified in the document |
CN107015963A (zh) * | 2017-03-22 | 2017-08-04 | 重庆邮电大学 | 基于深度神经网络的自然语言语义分析系统及方法 |
CN107194466A (zh) * | 2017-05-23 | 2017-09-22 | 广东工业大学 | 一种概念间知识可视化方法及系统 |
US11176325B2 (en) * | 2017-06-26 | 2021-11-16 | International Business Machines Corporation | Adaptive evaluation of meta-relationships in semantic graphs |
CN110717034A (zh) * | 2018-06-26 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN112270768B (zh) * | 2020-11-09 | 2023-11-03 | 中山大学 | 基于虚拟现实技术的古籍阅读方法、系统及其构建方法 |
-
2021
- 2021-02-05 CN CN202110157054.9A patent/CN112860864B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112860864A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadeghi et al. | Viske: Visual knowledge extraction and question answering by visual verification of relation phrases | |
Bulkeley | Digital dream analysis: A revised method | |
Moura et al. | The influence of the evolutionary past on the mind: An analysis of the preference for landscapes in the human species | |
Desai et al. | Kinship across species: Learning to care for nonhuman others | |
Hawkins et al. | Infrastructures of conservation: Provoking new natures with predator fencing | |
Bercovitch et al. | Gazing at a giraffe gyroscope: where are we going? | |
Cheng et al. | Semantically-driven automatic creation of training sets for object recognition | |
Castricano et al. | Critical perspectives on veganism | |
Hannis et al. | Relationality, reciprocity, and flourishing in an African landscape | |
CN116010564A (zh) | 一种基于多模态知识图谱的水稻病虫害问答系统的构建方法 | |
Blecha et al. | Distance, proximity, and freedom: Identifying conflicting priorities regarding urban backyard livestock slaughter | |
Adama et al. | Dr. LADA: Diagnosing black pepper pest and diseases with decision tree | |
De Luna | Marksmen and the bush: the affective micro-politics of landscape, sex and technology in precolonial south-central Africa | |
CN112860864B (zh) | 一种基于概念图的故事语义可视化呈现方法 | |
Fadloun et al. | EpidVis: A visual web querying tool for animal epidemiology surveillance | |
Kjølsrød et al. | You can really start birdwatching in your backyard, and from there the sky’s the limit | |
Lazo et al. | Expert and lay mental models of ecosystems: inferences for risk communication | |
Bolender | The genealogy of the moral modules | |
Pang | Uncovering" Shikigami": The Search for the Spirit Servant of Onmyōdō | |
Metz et al. | Uncertainty-Aware Enrichment of Animal Movement Trajectories by VGI | |
Bingham | Zadie Smith’s Nonhuman turns | |
Du Plessis | Tracking knowledge: science, tracking and technology | |
WO2015142160A1 (en) | Organized knowledge and service system (okss) | |
Karban et al. | How to Do Ecology: A Concise Handbook | |
Persson | New approaches in empirical animal ethics-using experimental philosophy to challenge intuitions regarding the moral status of nonhuman animals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |