CN111460822B - 主题扩展的方法、装置、设备和存储介质 - Google Patents
主题扩展的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111460822B CN111460822B CN202010231012.0A CN202010231012A CN111460822B CN 111460822 B CN111460822 B CN 111460822B CN 202010231012 A CN202010231012 A CN 202010231012A CN 111460822 B CN111460822 B CN 111460822B
- Authority
- CN
- China
- Prior art keywords
- topic
- node
- target
- event
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 10
- 230000001364 causal effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例提供了主题扩展的方法、装置、设备和存储介质,涉及文本处理领域。该方法包括:从事件关系图中确定与目标主题相对应的目标节点,事件关系图包括指示不同事件的多个节点和关于事件之间关系的描述;基于描述,从事件关系图中确定与目标节点相关联的至少一个关联节点;以及基于与至少一个关联节点相对应的事件,确定针对目标主题的扩展主题。基于这样的方式,可以高效且准确地确定目标主题的扩展主题。
Description
技术领域
本公开的实施例主要涉及计算机技术领域,并且更具体地,涉及用于主题扩展的方法、装置、设备以及计算机可读存储介质。
背景技术
近年来,网络媒体已经成为人们获取信息的重要来源之一。越来越多的创作者在互联网上创作文章,自媒体也成为一种非常流行的媒体形式。为了吸引读者阅读,自媒体作者通常希望能够尽可能考虑到某个主题的多个方面。因此,这些创作者(诸如自媒体作者)通常希望能够快速地获取可扩展的主题,从而方便创作。
发明内容
根据本公开的实施例,提供了一种主题扩展的方案。
在本公开的第一方面中,提供了一种主题扩展的方法。该方法包括:从事件关系图中确定与目标主题相对应的目标节点,事件关系图包括指示不同事件的多个节点和关于事件之间关系的描述;基于描述,从事件关系图中确定与目标节点相关联的至少一个关联节点;以及基于与至少一个关联节点相对应的事件,确定针对目标主题的扩展主题。
在本公开的第二方面中,提供了一种主题扩展的装置。该装置包括:目标节点确定模块,被配置为从事件关系图中确定与目标主题相对应的目标节点,事件关系图包括指示不同事件的多个节点和关于事件之间关系的描述;关联节点确定模块,被配置为基于描述,从事件关系图中确定与目标节点相关联的至少一个关联节点;以及扩展主题确定模块,被配置为基于与至少一个关联节点相对应的事件,确定针对目标主题的扩展主题。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的主题扩展的示例方法的流程图;
图3示出了根据本公开的一些实施例的确定扩展主题的示例方法的流程图;
图4示出了根据本公开的一些实施例的用于确定成像设备的坐标系转换参数的装置的示意性结构框图;以及
图5示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如前面提及的,在创作的过程中,创作者可能期望针对目标主题进行扩展,以丰富所创作的文章的内容。根据传统的方案,创作者需要自己通过互联网引擎搜索等方式来获取与所创作主题相关的一些新闻或者话题。然而,这样的方式往往是低效的,而且所获得的话题也未必可靠,并且可能导致一些不符合事实的文章。
根据本公开的各种实施例,提供了一种主题扩展的方案。在本公开的实施例中,在确定目标主题后,可以从事件关系图中确定与该目标主题相对应的目标节点,其中事件关系图包括指示不同事件的多个节点和关于事件之间关系的描述。基于描述可以从事件关系图中确定与目标节点相关联的至少一个关联节点。随后,基于与至少一个关联节点相对应的事件,可以确定针对目标主题的扩展主题。通过使用事件关系图,本公开的实施例可以高效且准确地确定目标主题的扩展主题。
以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。
如图1所示,环境100包括计算设备120,计算设备120可以接收创作者当前希望针对的目标主题110。目标主题110例如可以是一个词或者一句话。目标主题110可以是针对事实的客观描述,也可以是创作者的主观论点。
在一些实施例中,计算设备130可以是用户可以直接操作的终端设备,用户可以通过输入设备(例如,键盘)而将目标主题110输入到计算设备130中。备选地,计算设备130也可以用户远程访问的服务器,其通过有线或无线网络从用户可操作的终端接收目标主题110。
如图1所示,计算设备130还可以获取事件关系图120。事件关系图120,也被称为事理图谱(或事件图谱),其不同于传统的知识图谱。传统的知识图谱描述的是实体以及实体之间的关系,而事理图谱描述的是不同事件之间的逻辑关系。
在一些实施例中,事件关系图120例如可以被组织为多个三元组,每个三元组包括代表两个事件的两个节点,以及关于该两个事件之间关系的描述。在一些实施例中,事件关系图120可以被维护在与计算设备130物理耦合的本地存储设备中,计算设备130可以从本地存储设备读取事件关系图120。备选地,事件关系图120也可以被维护与计算设备130通信耦合的远程存储设备中,计算设备130可以通过有线或无线连接来访问远程存储设备,以读取事件关系图120。
如图1所示,计算设备130可以基于事件关系图120来确定针对目标主题110的扩展主题140。与目标主题110的形式类似,扩展主题140可以是一个词或者一句话。在一些实施例中,计算设备130可以向用户提供所确定的扩展主题140。关于计算设备130确定扩展主题140的过程将在下文中详细描述。
图2示出了根据本公开的一些实施例的用于主题扩展的示例方法200的流程图。该方法200可以在图1的计算设备130处实施。
如图2所示,在框202,计算设备130从事件关系图120中确定与目标主题110相对应的目标节点,其中事件关系图120包括指示不同事件的多个节点和关于事件之间关系的描述。如上文所描述的,事件关系图120可以被组织为多个三元组,每个三元组例如可以表示为<节点1,关系,节点2>,例如<结婚,因果,买房>,表示“结婚”这一事件是导致“买房”这一事件的原因。
在一些实施例中,计算设备130可以通过文本之间的比较来确定与目标主题110相对应的目标节点。具体地,计算设备130可以获取事件文本,其中事件文本描述与多个节点中的至少一个节点相对应的事件。例如,以“张三和李四结婚”作为目标主题110的示例,计算设备130首先可以读取事件关系图120中与每个节点相对应的事件文本。
随后,计算设备130可以基于事件文本与描述目标主题的主题文本之间的比较,从多个节点中确定目标节点。继续之前的示例,例如,计算设备130可以确定事件关系图120中包括事件文本为“张三与李四结婚”的节点。此时,计算设备130可以通过确定事件文本与主体文本之间的文本重复度高于阈值来确定该节点即为目标节点。
在一些实施例中,计算设备130也可以基于语义相似度来确定高目标节点。具体地,计算设备130可以确定事件文本与主题文本之间的语义相似度,并且在确定语义相似度高于预定阈值时从至少一个节点中确定目标节点。继续之前的示例,计算设备130例如可以确定事件关系图120中不包括与“张三与李四结婚”这一主体文本一模一样的事件文本,但是包括“张三李四婚礼”这一事件文本。此时,计算设备130可以通过确定事件文本“张三李四婚礼”与目标文本“张三与李四结婚”之间的语义相似度高于阈值来确定目标节点。
在一些实施例中,计算设备130还可以通过识别命名实体来确定目标节点。具体地,计算设备130可以确定用于描述目标主题的主题文本中包括的至少一个命名实体。例如,计算设备130可以确定主题文本“张三与李四结婚”中包括的命名实体有“张三”、“李四”和“结婚”。应当理解,可以采用本领域任何适当的方式来确定命名实体,本公开不旨在对此进行限制。
进一步地,计算设备130可以从多个节点中确定与至少一个命名实体相对应的节点以作为目标节点。计算设备130可以针对所确定的每个命名实体执行文本重复率或者语义相似度的比较,从而确定与命名实体相对应的节点。继续先前的实体,通过对命名实体进行分析,计算设备130例如可以将与事件文本“结婚”相对应的节点确定作为目标节点。
在框204,计算设备130基于描述,从事件关系图120中确定与目标节点相关联的至少一个关联节点。在一些实施例中,计算设备130可以基于描述从多个节点中确定至少一个关联节点,其中与至少一个关联节点相对应的第一事件同与目标节点相对应的第二事件具有预定关系。例如,计算设备130例如可以基于事件关系图120所对应的三元组来确定与目标节点相关联的三元组,并基于三元组来确定至少一个关联节点。例如,以确定的目标节点为与“结婚”对应的节点,计算设备120可以确定关联节点为与“买房”对应的节点。在该示例中,第一事件“结婚”与第二事件“买房”为因果关系。
在一些实施例中,预定关系包括时序关系、因果关系、或者上下位关系,其中时序关系可以表示两个事件的发生先后顺序(例如,先于、晚于或者同时);因果关系可以表示两个事件之间存在因果逻辑;上下位关系可以表示两个事件之间构成上下位,例如,地震事件是灾害事件的下位。应当理解,还可以包括任何其他适当的逻辑关系。
继续参考图2,在框206,计算设备130基于与至少一个关联节点相对应的事件确定针对目标主题的扩展主题140。在一些实施例中,计算设备130可以将描述关联节点所对应的事件的文本作为扩展主题140输出给用户。例如,计算设备130在确定关联节点为与事件“买房”对应的节点后,计算设备130可以将“买房”输出作为扩展主题140。作为另一示例,计算设备130在确定关联节点为与事件“张三与李四约会”对应的节点,则计算设备130可以将“沾伞与李四约会”输出作为对目标主题“张三与李四结婚”的扩展主题140。
基于这样的方式,本公开的实施例可以利用事理图谱来快速高效地确定与目标主题关联的扩展主题,从而例如可以为用户的创作提供更好的支持。
在一些实施例中,考虑到某些扩展主题本身并不一定是绝对准确的事件,如果针对这些扩展主题进行创作,可能会导致例如造谣等风险。根据本公开的实施例,计算设备130还可以尽可能保证所推荐的扩展主题140不存在事实风险。以下将参考图3来描述框206的过程,图3示出了根据本公开实施例的确定扩展主题的过程的流程图。
如图3所示,在框302,计算设备130可以基于与至少一个关联节点相对应的事件来确定候选主题。与直接将与关联节点所对应的事件确定为扩展主题140不同,计算设备130可以首先基于这些事件来确定候选主题。
在框304,计算设备130可以确定候选主题的事实风险程度,事实风险程度指示候选主题是否是关于客观事实的描述。在一些实施例中,计算设备130例如可以通过机器学习来确定事实风险程度。例如,计算设备130还可以将候选主题的文本应用于事实风险模型以确定事实风险程度,其中事实风险模型是基于多个训练文本和针对训练文本的事实风险标注而被训练的。例如,可以将不同事件所对应的文本作为训练文本,并基于专家对这些事件的风险程度进行标注以作为训练的真值目标,从而来训练事实风险模型。
在框306,计算设备130可以根据确定事实风险程度小于预定阈值,将候选主题确定为扩展主题。为了避免某些存在事实风险的主题被推荐,计算设备130例如可以通过设置阈值的方式来过滤某些主题,并将事实风险程度较低的事件所对应的候选主题确定为扩展主题。
以“张三与李四结婚”为目标主题110的示例,计算设备130例如可以确定候选主题包括“买房”以及“张三与李四牵手”。例如,“买房”是通过“结婚”的因果关系而被确定,而“张三与李四牵手”是基于“张三与李四结婚”的时序关系而被确定。此时,计算设备130例如通过事实风险模型可以确定“买房”这一事件(即,张三与李四买房)存在事实风险,不应当作为写作的扩展主题。基于这样的方式,本公开的实施例可以自动地过滤一些存在风险的主体,避免针对这些风险主题进行创作所带来的风险。
本公开的实施例还提供了用于实现上述方法或过程的相应装置。图4示出了根据本公开的一些实施例的用于确定成像设备的坐标系转换参数的装置400的示意性结构框图。该装置400可以在例如图1的计算设备130处实施。
如图4所示,装置400可以包括目标节点确定模块402,被配置为从事件关系图中确定与目标主题相对应的目标节点,事件关系图包括指示不同事件的多个节点和关于事件之间关系的描述。装置400还包括关联节点确定模块404,被配置为基于描述,从事件关系图中确定与目标节点相关联的至少一个关联节点。此外,装置400还包括扩展主题确定模块406,被配置为基于与至少一个关联节点相对应的事件,确定针对目标主题的扩展主题。
根据本公开的一些实施例,目标节点确定模块402包括:获取模块,被配置为获取事件文本,事件文本描述与多个节点中的至少一个节点相对应的事件;以及第一确定模块,被配置为基于事件文本与描述目标主题的主题文本之间的比较,从多个节点中确定目标节点。
根据本公开的一些实施例,第一确定模块包括:语义相似度确定模块,被配置为确定事件文本与主题文本之间的语义相似度;以及第二确定模块,被配置为根据确定语义相似度高于预定阈值,从至少一个节点中确定目标节点。
根据本公开的一些实施例,目标节点402确定模块包括:命名实体确定模块,被配置为确定用于描述目标主题的主题文本中包括的至少一个命名实体;以及第三确定模块,被配置为从多个节点中确定与至少一个命名实体相对应的节点,以作为目标节点。
根据本公开的一些实施例,关联节点404确定模块包括:第四确定模块,被配置为基于描述,从多个节点中确定至少一个关联节点,与至少一个关联节点相对应的第一事件同与目标节点相对应的第二事件具有预定关系。
根据本公开的一些实施例,预定关系包括以下中的至少一项:时序关系;因果关系;或者上下位关系。
根据本公开的一些实施例,扩展主题确定模块包括:候选主题确定模块,被配置为基于与至少一个关联节点相对应的事件,确定候选主题;风险程度确定模块,被配置为确定候选主题的事实风险程度,事实风险程度指示候选主题是否是关于客观事实的描述;以及第五确定模块,被配置为根据确定事实风险程度小于预定阈值,将候选主题确定为扩展主题。
根据本公开的一些实施例,风险程度确定模块包括:文本处理模块,被配置为将候选主题的文本应用于事实风险模型,以确定事实风险程度,事实风险模型是基于多个训练文本和针对训练文本的事实风险标注而被训练的。
装置400中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置400中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。
图4中所示的这些单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地,在某些实施例中,上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。
图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。设备500可以用于实现计算设备130。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元502加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元501执行上文所描述的各个方法和处理,例如方法200。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200、400、500的一个或多个步骤。备选地,在其他实施例中,CPU 501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (16)
1.一种主题扩展的方法,包括:
从事件关系图中确定与目标主题相对应的目标节点,所述事件关系图包括指示不同事件的多个节点和关于所述事件之间关系的描述;
基于所述描述,从所述事件关系图中确定与所述目标节点相关联的至少一个关联节点;以及
基于与所述至少一个关联节点相对应的事件,确定针对所述目标主题的扩展主题;
其中确定所述扩展主题包括:
基于与所述至少一个关联节点相对应的事件,确定候选主题;
确定所述候选主题的事实风险程度,所述事实风险程度指示所述候选主题是否是关于客观事实的描述;以及
根据确定所述事实风险程度小于预定阈值,将所述候选主题确定为所述扩展主题。
2.根据权利要求1所述的方法,其中确定所述目标节点包括:
获取事件文本,所述事件文本描述与所述多个节点中的至少一个节点相对应的事件;以及
基于所述事件文本与描述所述目标主题的主题文本之间的比较,从所述多个节点中确定所述目标节点。
3.根据权利要求2所述的方法,其中从所述多个节点中确定所述目标节点包括:
确定所述事件文本与所述主题文本之间的语义相似度;以及
根据确定所述语义相似度高于预定阈值,从所述至少一个节点中确定所述目标节点。
4.根据权利要求1所述的方法,其中确定所述目标节点包括:
确定用于描述所述目标主题的主题文本中包括的至少一个命名实体;以及
从所述多个节点中确定与所述至少一个命名实体相对应的节点,以作为所述目标节点。
5.根据权利要求1所述的方法,其中确定所述至少一个关联节点包括:
基于所述描述,从多个节点中确定所述至少一个关联节点,与所述至少一个关联节点相对应的第一事件同与所述目标节点相对应的第二事件具有预定关系。
6.根据权利要求5所述的方法,其中所述预定关系包括以下中的至少一项:
时序关系;
因果关系;或者
上下位关系。
7.根据权利要求1所述的方法,其中确定所述候选主题的所述事实风险程度包括:
将所述候选主题的文本应用于事实风险模型,以确定所述事实风险程度,所述事实风险模型是基于多个训练文本和针对所述训练文本的事实风险标注而被训练的。
8.一种主题扩展的装置,包括:
目标节点确定模块,被配置为从事件关系图中确定与目标主题相对应的目标节点,所述事件关系图包括指示不同事件的多个节点和关于所述事件之间关系的描述;
关联节点确定模块,被配置为基于所述描述,从所述事件关系图中确定与所述目标节点相关联的至少一个关联节点;以及
扩展主题确定模块,被配置为基于与所述至少一个关联节点相对应的事件,确定针对所述目标主题的扩展主题;
其中所述扩展主题确定模块包括:
候选主题确定模块,被配置为基于与所述至少一个关联节点相对应的事件,确定候选主题;
风险程度确定模块,被配置为确定所述候选主题的事实风险程度,所述事实风险程度指示所述候选主题是否是关于客观事实的描述;以及
第五确定模块,被配置为根据确定所述事实风险程度小于预定阈值,将所述候选主题确定为所述扩展主题。
9.根据权利要求8所述的装置,其中所述目标节点确定模块包括:
获取模块,被配置为获取事件文本,所述事件文本描述与所述多个节点中的至少一个节点相对应的事件;以及
第一确定模块,被配置为基于所述事件文本与描述所述目标主题的主题文本之间的比较,从所述多个节点中确定所述目标节点。
10.根据权利要求9所述的装置,其中所述第一确定模块包括:
语义相似度确定模块,被配置为确定所述事件文本与所述主题文本之间的语义相似度;以及
第二确定模块,被配置为根据确定所述语义相似度高于预定阈值,从所述至少一个节点中确定所述目标节点。
11.根据权利要求8所述的装置,其中所述目标节点确定模块包括:
命名实体确定模块,被配置为确定用于描述所述目标主题的主题文本中包括的至少一个命名实体;以及
第三确定模块,被配置为从所述多个节点中确定与所述至少一个命名实体相对应的节点,以作为所述目标节点。
12.根据权利要求8所述的装置,其中所述关联节点确定模块包括:
第四确定模块,被配置为基于所述描述,从多个节点中确定所述至少一个关联节点,与所述至少一个关联节点相对应的第一事件同与所述目标节点相对应的第二事件具有预定关系。
13.根据权利要求12所述的装置,其中所述预定关系包括以下中的至少一项:
时序关系;
因果关系;或者
上下位关系。
14.根据权利要求8所述的装置,其中所述风险程度确定模块包括:
文本处理模块,被配置为将所述候选主题的文本应用于事实风险模型,以确定所述事实风险程度,所述事实风险模型是基于多个训练文本和针对所述训练文本的事实风险标注而被训练的。
15.一种电子设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231012.0A CN111460822B (zh) | 2020-03-27 | 2020-03-27 | 主题扩展的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231012.0A CN111460822B (zh) | 2020-03-27 | 2020-03-27 | 主题扩展的方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460822A CN111460822A (zh) | 2020-07-28 |
CN111460822B true CN111460822B (zh) | 2024-02-27 |
Family
ID=71685724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010231012.0A Active CN111460822B (zh) | 2020-03-27 | 2020-03-27 | 主题扩展的方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460822B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868508B (zh) * | 2021-09-23 | 2022-09-27 | 北京百度网讯科技有限公司 | 写作素材查询方法、装置、电子设备和存储介质 |
CN117034943B (zh) * | 2023-10-09 | 2024-02-06 | 华南师范大学 | 论证提取以及关系识别方法、装置、设备以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN104954236A (zh) * | 2015-06-19 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 为主题事件生成传播路径的信息的方法和装置 |
CN107431664A (zh) * | 2015-01-23 | 2017-12-01 | 电子湾有限公司 | 处理大容量网络数据 |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
CN108875057A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于确定数据主题的方法、装置、设备和计算机可读介质 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572088B2 (en) * | 2005-10-21 | 2013-10-29 | Microsoft Corporation | Automated rich presentation of a semantic topic |
US9092483B2 (en) * | 2010-10-19 | 2015-07-28 | Microsoft Technology Licensing, Llc | User query reformulation using random walks |
CN104885104B (zh) * | 2012-08-03 | 2018-05-22 | 泰拉贝拉技术公司 | 卫星调度系统 |
US9239887B2 (en) * | 2012-12-18 | 2016-01-19 | Cisco Technology, Inc. | Automatic correlation of dynamic system events within computing devices |
US9760255B2 (en) * | 2014-02-24 | 2017-09-12 | Microsoft Technology Licensing, Llc | Propagating theming information from host applications to host extensions |
JP6973106B2 (ja) * | 2018-01-19 | 2021-11-24 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
-
2020
- 2020-03-27 CN CN202010231012.0A patent/CN111460822B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663122A (zh) * | 2012-04-20 | 2012-09-12 | 北京邮电大学 | 基于突发事件本体的语义查询扩展算法 |
CN107431664A (zh) * | 2015-01-23 | 2017-12-01 | 电子湾有限公司 | 处理大容量网络数据 |
CN104954236A (zh) * | 2015-06-19 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 为主题事件生成传播路径的信息的方法和装置 |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
CN108875057A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于确定数据主题的方法、装置、设备和计算机可读介质 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN110781317A (zh) * | 2019-10-29 | 2020-02-11 | 北京明略软件系统有限公司 | 事件图谱的构建方法、装置及电子设备 |
Non-Patent Citations (5)
Title |
---|
exploring communities in large profiled graphs;yankai chen;《ieee transactions on konwledge and data engineering》;全文 * |
基于知识嵌入主题模型的多模态社会事件分析;孙健;《中国优秀硕士论文全文数据库信息科技辑》;全文 * |
王晰巍.社交网络舆情知识图谱发展动态及趋势研究.《情报学报》.2019,全文. * |
王雍凯 ; 毛存礼 ; 余正涛 ; 郭剑毅 ; 洪旭东 ; 罗林 ; .基于图的新闻事件主题句抽取方法.南京理工大学学报.2016,(第04期),全文. * |
融合因果事件的知识图谱构建及其应用研究;周威;《中国优秀硕士论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460822A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10666583B2 (en) | System and method for visually understanding and programming conversational agents of electronic devices | |
US10936821B2 (en) | Testing and training a question-answering system | |
US10754885B2 (en) | System and method for visually searching and debugging conversational agents of electronic devices | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
US10242670B2 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
CN112966712A (zh) | 语言模型训练方法、装置、电子设备和计算机可读介质 | |
WO2015083309A1 (en) | Mining forums for solutions to questions | |
US11556812B2 (en) | Method and device for acquiring data model in knowledge graph, and medium | |
CN111159220B (zh) | 用于输出结构化查询语句的方法和装置 | |
CN111460822B (zh) | 主题扩展的方法、装置、设备和存储介质 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
WO2020052060A1 (zh) | 用于生成修正语句的方法和装置 | |
CN111563172B (zh) | 基于动态知识图谱构建的学术热点趋势预测方法和装置 | |
CN109903754B (zh) | 用于语音识别的方法、设备和存储器设备 | |
WO2023011237A1 (zh) | 业务处理 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN115906838A (zh) | 文本抽取方法、装置、电子设备以及存储介质 | |
CN116341561B (zh) | 一种语音样本数据生成方法、装置、设备和存储介质 | |
CN112905884B (zh) | 生成序列标注模型的方法、设备、介质及程序产品 | |
CN115982352B (zh) | 文本分类方法、装置以及设备 | |
CN113221564B (zh) | 训练实体识别模型的方法、装置、电子设备和存储介质 | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
CN115938353B (zh) | 语音样本分布式采样方法、系统、存储介质和电子设备 | |
CN108932326B (zh) | 一种实例扩展方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |