CN114661891A - 信息提取方法、装置、电子设备和介质 - Google Patents
信息提取方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN114661891A CN114661891A CN202210375178.9A CN202210375178A CN114661891A CN 114661891 A CN114661891 A CN 114661891A CN 202210375178 A CN202210375178 A CN 202210375178A CN 114661891 A CN114661891 A CN 114661891A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- content information
- template
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 230000004044 response Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种信息提取方法、装置、电子设备和介质,涉及数据处理技术领域,尤其涉及信息抽取、云计算及知识图谱技术领域,可应用在智慧城市和智慧政务场景下。具体实现方案为:根据获取的查询请求,从候选文本原文中确定目标文本原文;根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。本公开实现了自动从文本原文中提取用户感兴趣的内容信息的效果,无需用户通过人工方式在文本原文中进行信息筛选,节省了人力成本,且提高了信息提取的效率,改善了用户体验。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及信息抽取、云计算及知识图谱技术领域,特别涉及一种信息提取方法、装置、电子设备和介质。
背景技术
随着互联网技术的迅速发展,新闻传播的方式由传统的纸质媒体传播转变为了网络媒体传播。人们只需要在互联网中输入查询词,便可以随时随地查看当前时刻或历史时刻发布的新闻,极大的方便了人们的日常生活。
目前的新闻查询方法会根据用户输入的查询词,直接召回相关的新闻原文。
发明内容
本公开提供了一种用于自动从文本原文中提取用户感兴趣的内容信息的方法、装置、电子设备和介质。
根据本公开的一方面,提供了一种信息提取方法,包括:
根据获取的查询请求,从候选文本原文中确定目标文本原文;
根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
根据本公开的另一方面,提供了一种信息提取装置,包括:
文本原文确定模块,用于根据获取的查询请求,从候选文本原文中确定目标文本原文;
信息提取模块,用于根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开中任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开中任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行本公开中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例公开的一些信息提取方法的流程图;
图2是根据本公开实施例公开的另一些信息提取方法的流程图;
图3是根据本公开实施例公开的另一些信息提取方法的流程图;
图4是根据本公开实施例公开的另一些信息提取方法的流程图;
图5是根据本公开实施例公开的一些信息展示的流程示意图;
图6是根据本公开实施例公开的一些信息提取装置的结构示意图;
图7是用来实现本公开实施例公开的信息提取方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前新闻传播的方式大多为网络媒体传播,用户可以通过在互联网中输入查询词,来查看相关的新闻原文。
然而目前的新闻查询方法大多只支持召回相关的新闻原文,用户若想要查看新闻原文中感兴趣的内容信息,还需要通过人工方式在新闻原文中进行信息筛选。例如,在智慧城市和智慧政务场景下,当发生新闻事件的时候,相关部门会做出新闻事件的官方回应,而在新闻事件相关的新闻原文中也会包括官方回应内容。若用户想要查询某个新闻事件的官方回应内容,在目前的新闻查询方法下,需要通过人工方式在召回的新闻原文中筛选出官方回应内容。
可见,现有的新闻查询方法无法自动从新闻原文中提取用户感兴趣的内容信息,导致用户想要查看感兴趣的内容信息需要付出较大的人力成本,信息提取效率较低,用户体验较差。
图1是根据本公开实施例公开的一些信息提取方法的流程图,本实施例可以适用于自动从新闻原文中提取用户感兴趣的内容信息的情况。本实施例方法可以由本公开实施例公开的信息提取装置来执行,所述装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上。
如图1所示,本实施例公开的信息提取方法可以包括:
S101、根据获取的查询请求,从候选文本原文中确定目标文本原文。
其中,文本原文表示包括字符元素的信息载体,例如新闻原文、论文原文、专利原文和小说原文等等,本实施例并不对文本原文的具体形式进行限定。查询请求表示用户针对想要查询的内容信息所生成的请求指令,查询请求中携带有包括但不限于关键词信息,例如当候选文本原文为新闻原文时,查询请求中携带的即为新闻事件的关键词信息,如新闻事件的事件名称等。候选文本原文表示预先从文本源获取的文本原文。
在一种实施方式中,按照预设时间间隔从文本源中获取发布的文本原文,其中,文本源可选的为任意的网络媒体,预设时间间隔可选的为一小时。
确定获取的文本原文的主题类型,其中,主题类型包括但不限于经济文本、法律文本、军事文本、科技文本、文教文本、体育文本和社会文本等。对获取的文本原文进行主题过滤,滤除掉主题类型为敏感主题的文本原文,进而将剩余的文本原文存储于数据库中作为候选文本原文。在数据库中,候选文本原文是以文本要素的形式进行存储的,即候选文本原文是以包括文本标题、文本正文、文本发布时间、文本发布作者和发布网站等形式进行存储的。
用户在搜索引擎中针对想要查询的内容信息,生成携带有关键词信息的查询请求。搜索引擎对查询请求进行解析获取关键词信息,并根据数据库支持的机器语言类型,对关键词信息进行适配。进而将关键词信息与候选文本原文包括的各文本要素进行相关性计算,并将与关键词信息的相关性大于预设门限值的文本要素所属的候选文本原文,作为目标文本原文。例如,若任一候选文本原文的文本标题与关键词信息的相关性大于预设门限值,则将该候选文本原文作为目标文本原文;又例如,若任一候选文本原文的文本正文与关键词信息的相关性大于预设门限值,则将该候选文本原文作为目标文本原文。
可选的,从候选文本原文中确定目标文本原文之后,还包括:
将关键词信息与各条目标文本原文包括的文本标题,共同输入至语义匹配模型中,并根据语义匹配模型输出的二分类结果,确定关键词信息与各文本标题是否语义匹配,并将与关键词信息语义不匹配的文本标题所属的目标文本原文过滤。
其中,语义匹配模型输出的二分类结果包括匹配和不匹配。语义匹配模型可选的包括基于单塔Point-wise范式的语义匹配模型。
通过对关键词信息和文本标题进行语义匹配,从而基于语义匹配结果对目标文本原文进行过滤,从而可以过滤与关键词信息非常不匹配的目标文本原文,进一步提高了目标文本原文召回的精准度。
S102、根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
其中,目标内容类型表示在目标文本原文中用户感兴趣的内容信息的类型。目标内容类型是根据用户对候选内容类型的选择操作确定的,候选内容类型可根据目标文本原文的主题类型设定,例如主题类型为“社会新闻”的目标文本原文所包括的候选内容类型,包括但不限于官方回应内容、记者采访内容和记者报道内容等等,其中,官方回应内容表示有关部门对新闻事件的回应内容,例如情况通报和事件通报等;记者采访内容表示记者针对新闻事件对相关部门或者事件目击者的采访内容;记者报道内容表示记者针对新闻事件的报道内容,本实施例并不对候选内容类型包括的具体类型进行限定。
针对每一类候选内容类型,预先根据经验总结了候选内容模板,即任一类候选内容类型都对应唯一的候选内容模板。其中,候选内容模板用于从文本原文中提取出属于候选内容类型的内容信息,候选内容模板中包括的模板内容是根据候选内容类型出现频率较高的内容信息总结得到的,模板内容包括但不限于模板关键词和/或模板句式等等。
在一种实施方式中,搜索引擎根据召回的目标文本原文的主题类型,向用户展示可选的候选内容类型。用户针对至少一类候选内容类型实施选择操作,搜索引擎根据用户的选择操作从候选内容类型中获取目标内容类型。例如,搜索引擎根据用户实施的点击选择操作,从候选内容类型中获取目标内容类型;又例如,搜索引擎对用户实施的语音选择操作进行意图识别,根据意图识别结果从候选内容类型中获取目标内容类型。
搜索引擎根据获取的目标内容类型,以及预先建立的候选内容类型与候选内容模板之间的关联关系,确定目标内容类型关联的目标内容模板。进一步的,搜索引擎确定目标文本原文中是否包括图片。
若不包括图片,搜索引擎则直接采用模板匹配方法,将目标内容模板中的模板内容,与目标文本原文进行匹配,并将目标文本原文中与模板内容相匹配的内容信息,作为属于目标内容类型的目标内容信息。
若包括图片,搜索引擎则首先对图片进行OCR(Optical Character Recognition,光学字符识别),获取图片中包括的文字信息,并将识别得到的文字信息添加至目标文本原文中。进一步的,搜索引擎再采用模板匹配方法,将目标内容模板中的模板内容,与目标文本原文进行匹配,并将目标文本原文中与模板内容相匹配的内容信息,作为属于目标内容类型的目标内容信息。
搜索引擎将提取的目标内容信息向用户进行展示,其中,展示方式可以是按照文字数量进行降序排序展示,即优先展示文字数量多的目标内容信息,还可以是按照文本发布时间进行降序排序展示等,即优先展示发布时间最新的目标文本原文的目标内容信息。本实施例并不对展示目标内容信息的具体方式进行限定。
本公开通过根据获取的查询请求,从候选文本原文中确定目标文本原文,并根据获取的目标内容类型,从目标文本原文中提取属于目标内容类型的目标内容信息,实现了自动从文本原文中提取用户感兴趣的内容信息的效果,无需用户通过人工方式在文本原文中进行信息筛选,节省了人力成本,且提高了信息提取的效率,改善了用户体验。
图2是根据本公开实施例公开的另一些信息提取方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。
如图2所示,本实施例公开的信息提取方法可以包括:
S201、根据获取的查询请求,将查询请求中包括的查询关键词,与候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从候选文本原文中确定目标文本原文。
其中,查询关键词即用户输入的查询query,例如新闻事件名称等。
在一种实施方式中,搜索引擎获取查询请求,并对查询请求进行解析获取查询请求中包括的查询关键词。将查询关键词与数据库中存储的各候选文本原文的文本标题和/或文本正文进行相关性匹配,包括以下三种可选方式:1、将查询关键词与文本标题进行相关性匹配。2、将查询关键词与文本正文进行相关性匹配。3、将查询关键词与文本标题和文本正文进行相关性匹配。
若任一候选文本原文的文本标题和/或文本正文与查询关键词具有相关性,包括以下至少一种情况:1、文本标题与查询关键词具有相关性。2、文本正文与查询关键词具有相关性。3、文本标题和文本正文与查询关键词具有相关性。则将该候选文本原文作为目标文本原文。
通过将查询请求中包括的查询关键词,与候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从候选文本原文中确定目标文本原文,由于文本标题和文本正文是文本原文核心的文本元素,因此将查询关键词与文本标题和/或文本正文进行匹配来确定目标文本原文,能够保证目标文本原文与查询关键词的相关性,提高确定目标文本原文的精确性和可靠性。
S202、将获取的目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定目标内容类型关联的目标内容模板。
其中,针对每一类候选内容类型构建候选内容模板时,建立了候选内容类型和候选内容模板之间的关联关系,包括但不限于建立候选内容类型和候选内容模板之间的KV键值对,其中候选内容类型为关键字Key,候选内容模板为数据值Value。
在一种实施方式中,将目标内容类型与候选内容类型进行匹配,确定与目标内容类型匹配的候选内容类型,并将该候选内容类型关联的候选内容模板,作为目标内容类型关联的目标内容模板。
示例性的,假设目标内容类型为“官方回应内容”,候选内容类型“官方回应内容”关联的候选内容模板为候选内容模板A,则将候选内容模板A作为目标内容类型关联的目标内容模板。
S203、根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息。
在一种实施方式中,获取目标内容模板中的模板关键词,并将模板关键词与目标文本原文进行匹配,进而根据包含有模板关键词的文本段落,确定属于目标内容类型的目标内容信息。
在另一种实施方式中,获取目标内容模板中的模板句式,并将模板句式与目标文本原文进行匹配,进而根据属于模板句式的文本段落,确定属于目标内容类型的目标内容信息。
通过将目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定目标内容类型关联的目标内容模板,根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息,使得提取出的目标内容信息符合目标内容模板,保证了目标内容信息的提取准确性。
S204、确定各目标内容信息之间的文本相似性,将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除相似内容信息之外的目标内容信息作为非相似内容信息。
在一种实施方式中,采用文本相似性计算算法,例如欧几里德距离算法、曼哈顿距离算法和simhash算法等,计算各目标内容信息之间的文本相似性。将计算得到的文本相似性与相似性门限值进行比对,将文本相似性大于相似性门限值的至少两条目标内容信息,作为一组相似内容信息。
示例性的,假设目标内容信息1与目标内容信息2的文本相似性为0.9,目标内容信息1与目标内容信息3的文本相似性为0.85,相似性门限值为0.8,则将目标内容信息1、目标内容信息2和目标内容信息3作为一组相似内容信息。
将目标内容信息中,除相似内容信息之外的目标内容信息作为非相似内容信息,可以理解的是,非相似内容信息与其它的目标内容信息的文本相似性均小于或等于相似性门限值。
S205、根据各相似内容信息的字符数量,从相似内容信息中确定筛选内容信息。
在一种实施方式中,确定每组相似内容信息中各相似内容信息的字符数量,并将字符数量最多的相似内容信息作为该组相似内容信息的筛选内容信息,将筛选内容信息进行保留并剔除其他的相似内容信息。
示例性的,假设目标内容信息1、目标内容信息2和目标内容信息3为一组相似内容信息,目标内容信息4和目标内容信息5为一组相似内容信息。其中,目标内容信息1、目标内容信息2、目标内容信息3、目标内容信息4和目标内容信息5的字符数量分别为100、120、130、50和60,则将目标内容信息3和目标内容信息5作为筛选内容信息。
S206、将筛选内容信息和非相似内容信息作为待展示内容信息,并将待展示内容信息进行展示。
在一种实施方式中,搜索引擎将筛选内容信息和非相似内容信息共同作为待展示信息,并将待展示信息向用户进行展示。
通过确定各目标内容信息之间的文本相似性,将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除相似内容信息之外的目标内容信息作为非相似内容信息,根据各相似内容信息的字符数量,从相似内容信息中确定筛选内容信息,将筛选内容信息和非相似内容信息作为待展示内容信息,并将待展示内容信息进行展示,实现了对目标内容信息进行去重的效果,避免了待展示内容信息出现重复信息的问题,提高了待展示内容信息的可读性,保证了用户体验。
可选的,S206中“将待展示内容信息进行展示”,包括:
确定各待展示内容信息的发布时间,并按照发布时间对各待展示内容信息进行顺序展示。
其中,发布时间表示待展示内容信息的信息发布时间,发布时间的具体类型可根据待展示内容信息所属的目标内容类型确定,例如当待展示内容信息所属的目标内容类型为“官方回应内容”时,发布时间可以是官方回应时间;又例如,当待展示内容信息所属的目标内容类型为“记者采访内容”时,发布时间可以是采访时间等。
在一种实施方式中,采用NER(Named Entities Recognition,命名实体识别)方法对各待展示内容信息进行发布时间的识别,确定各待展示内容信息中包括的发布时间。进而按照发布时间对各待展示内容信息进行顺序展示,可以是按照发布时间对各待展示内容信息进行倒序展示,即首先展示发布时间最新的待展示内容,还可以是按照发布时间对各待展示内容信息进行升序展示,即首先展示发布时间最早的待展示内容,本实施例并不对具体的顺序展示方式进行限定。
可选的,若无法识别出待展示内容信息的发布时间,则直接将待展示内容信息所属目标文本原文的文本发布时间,作为待展示内容信息的发布时间。
通过确定各待展示内容信息的发布时间,并按照发布时间对各待展示内容信息进行顺序展示,方便用户按照发布时间的先后顺序浏览待展示内容信息,增加了待展示内容信息的可读性,保证了用户体验。
图3是根据本公开实施例公开的另一些信息提取方法的流程图,对本实施例中“根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息”进一步优化与扩展,并可以与上述各个可选实施方式进行结合。
如图3所示,本实施例公开的信息提取方法可以包括:
S301、将目标内容模板中的模板关键词与目标文本原文进行匹配,确定包含有模板关键词的候选文本段落。
其中,模板关键词包括了目标内容类型高频出现的至少一个词语。
在一种实施方式中,搜索引擎获取目标内容模板中的模板关键词,并通过正则表达式将模板关键词与目标文本原文进行匹配,确定目标文本原文中包含有至少一个模板关键词的文本段落,作为候选文本段落。
S302、根据候选文本段落的字符总数量和包含的模板关键词的字符数量,从候选文本中确定目标文本段落,并将目标文本段落作为目标内容信息。
在一种实施方式中,通过字典方法确定各候选文本段落的字符总数量,以及各候选文本段落包含的模板关键词的字符数量。根据包含的模板关键词的字符数量,和候选文本段落的字符总数量,确定各候选文本段落包含的模板关键词的字符占比,进而根据字符占比从候选文本段落中确定目标文本段落。
本公开通过将目标内容模板中的模板关键词与目标文本原文进行匹配,确定包含有模板关键词的候选文本段落,并根据候选文本段落的字符总数量和包含的模板关键词的字符数量,从候选文本中确定目标文本段落,并将目标文本段落作为目标内容信息,实现了自动从目标文本原文中提取用户感兴趣的目标内容信息的效果,节省了人力成本。
可选的,S302中“根据候选文本段落的字符总数量和包含的模板关键词的字符数量,从候选文本中确定目标文本段落”,包括:
根据字符数量以及字符总数量,确定候选文本段落包含的模板关键词的字符占比;根据字符占比以及字符占比门限值,从候选文本段落中确定目标文本段落。
在一种实施方式中,搜索引擎将包含的模板关键词的字符数量,与候选文本段落的字符总数量的比值,作为候选文本段落包含的模板关键词的字符占比。将各候选文本段落对应的字符占比与字符占比门限值进行比对,并将字符占比大于或等于字符占比门限值的候选文本段落,作为目标文本段落。
示例性的,假设候选文本段落A包含的模板关键词的字符占比为40%,假设候选文本段落B包含的模板关键词的字符占比为50%,字符占比门限值为45%,则将候选文本段落B作为目标文本段落。
通过根据字符数量以及字符总数量,确定候选文本段落包含的模板关键词的字符占比,并根据字符占比以及字符占比门限值,从候选文本段落中确定目标文本段落,由于文本段落包含的模板关键词的字符占比越大,则表示文本段落属于目标内容类型的概率越高,因此基于包含的模板关键词的字符占比,确定目标文本段落并作为目标内容信息,提高了目标内容信息确定的精确度。
图4是根据本公开实施例公开的另一些信息提取方法的流程图,对本实施例中“根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息”进一步优化与扩展,并可以与上述各个可选实施方式进行结合。
如图4所示,本实施例公开的信息提取方法可以包括:
S401、将目标内容模板中的起始模板句式和结束模板句式分别与目标文本原文进行匹配,确定属于起始模板句式的起始文本语句以及属于结束模板句式的结束文本语句。
其中,起始模板句式包括了目标内容类型高频出现的至少一种起始句式,相应的,结束模板句式包括了目标内容类型高频出现的至少一种结束句式。以目标内容类型为“官方回应内容”为例,起始模板句式包括但不限于“关于XX事件的情况通报”和“对于XX事件的官方回应”等,结束模板句式包括但不限于“事件原因正在进一步调查中”和“相关部门正在进一步调查”等。
在一种实施方式中,搜索引擎获取目标内容模板中的起始模板句式和结束模板句式。通过正则表达式将起始模板句式与目标文本原文进行匹配,确定目标文本原文中属于任一起始模板句式的文本语句,作为起始文本语句。并且,通过正则表达式将结束模板句式与目标文本原文进行匹配,确定目标文本原文中属于任一结束模板句式的文本语句,作为结束文本语句
S402、根据目标文本原文中处于起始文本语句和结束文本语句之间的文本原文,确定目标内容信息。
在一种实施方式中,搜索引擎确定起始文本语句的第一文本位置,以及结束文本语句的第二文本位置,进而确定第一文本位置和第二文本位置之间的文本原文,最终将该文本原文、起始文本语句以及结束文本语句共同作为目标内容信息。
本公开通过将目标内容模板中的起始模板句式和结束模板句式分别与目标文本原文进行匹配,确定属于起始模板句式的起始文本语句以及属于结束模板句式的结束文本语句,并根据目标文本原文中处于起始文本语句和结束文本语句之间的文本原文,确定目标内容信息,实现了自动从目标文本原文中提取用户感兴趣的目标内容信息的效果,节省了人力成本。
图5是根据本公开实施例公开的一些信息展示的流程示意图,如图5所示,流程中包括获取查询请求51、确定目标文本原文52、文本原文过滤53、提取目标内容信息54、目标内容信息过滤55、待展示内容信息排序56和待展示内容信息展示57。
其中,在获取查询请求51中,搜索引擎获取查询请求,并对查询请求进行解析获取查询请求中包括的查询关键词。
在确定目标文本原文52中,搜索引擎将查询关键词,与候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从候选文本原文中确定目标文本原文。
在文本原文过滤53中,搜索引擎将查询关键词与各条目标文本原文包括的文本标题,共同输入至语义匹配模型中,并根据语义匹配模型输出的二分类结果,确定关键词信息与各文本标题是否语义匹配,并将与关键词信息语义不匹配的文本标题所属的目标文本原文过滤。
在提取目标内容信息54中,搜索引擎根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息。
在目标内容信息过滤55中,搜索引擎根据各相似内容信息的字符数量,将字符数量较少的相似内容信息过滤掉,生成待展示内容。
在待展示内容信息排序56中,搜索引擎确定各待展示内容信息的发布时间,并按照发布时间对各待展示内容信息进行顺序展示。
在待展示内容信息展示57中,搜索引擎将待展示内容向用户进行展示。
图5仅是对本实施例中信息展示的整体流程进行了解释说明,并不对其中各步骤的具体实施方式进行限定,各步骤的具体实施方式可参考本公开上述方法实施例中的描述,本处不再赘述。
图6是根据本公开实施例公开的一些信息提取装置的结构示意图,可以适用于自动从文本原文中提取用户感兴趣的内容信息的情况。本实施例装置可采用软件和/或硬件实现,并可集成在任意的具有计算能力的电子设备上。
如图6所示,本实施例公开的信息提取装置60可以包括文本原文确定模块61和信息提取模块62,其中:
文本原文确定模块61,用于根据获取的查询请求,从候选文本原文中确定目标文本原文;
信息提取模块62,用于根据获取的目标内容类型,从目标文本原文中提取属于目标内容类型的目标内容信息。
可选的,信息提取模块62,具体用于:
将目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定目标内容类型关联的目标内容模板;
根据目标内容模板,从目标文本原文中提取属于目标内容类型的目标内容信息。
可选的,信息提取模块62,具体还用于:
将目标内容模板中的模板关键词与目标文本原文进行匹配,确定包含有模板关键词的候选文本段落;
根据候选文本段落的字符总数量和包含的模板关键词的字符数量,从候选文本中确定目标文本段落,并将目标文本段落作为目标内容信息。
可选的,信息提取模块62,具体还用于:
根据字符数量以及字符总数量,确定候选文本段落包含的模板关键词的字符占比;
根据字符占比以及字符占比门限值,从候选文本段落中确定目标文本段落。
可选的,信息提取模块62,具体用于:
将目标内容模板中的起始模板句式和结束模板句式分别与目标文本原文进行匹配,确定属于起始模板句式的起始文本语句以及属于结束模板句式的结束文本语句;
根据目标文本原文中处于起始文本语句和结束文本语句之间的文本原文,确定目标内容信息。
可选的,装置还包括信息展示模块,具体用于:
确定各目标内容信息之间的文本相似性;
将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除相似内容信息之外的目标内容信息作为非相似内容信息;
根据各相似内容信息的字符数量,从相似内容信息中确定筛选内容信息;
将筛选内容信息和非相似内容信息作为待展示内容信息,并将待展示内容信息进行展示。
可选的,信息展示模块,具体还用于:
确定各待展示内容信息的发布时间,并按照发布时间对各待展示内容信息进行顺序展示。
可选的,文本原文确定模块61,具体用于:
将查询请求中包括的查询关键词,与候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从候选文本原文中确定目标文本原文。
本公开实施例所公开的信息提取装置60可执行本公开实施例所公开的信息提取方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本公开方法实施例中的描述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如信息提取方法。例如,在一些实施例中,信息提取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的信息提取方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息提取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种信息提取方法,包括:
根据获取的查询请求,从候选文本原文中确定目标文本原文;
根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
2.根据权利要求1所述的方法,其中,所述根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:
将所述目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定所述目标内容类型关联的目标内容模板;
根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
3.根据权利要求2所述的方法,其中,所述根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:
将所述目标内容模板中的模板关键词与所述目标文本原文进行匹配,确定包含有所述模板关键词的候选文本段落;
根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量,从所述候选文本中确定目标文本段落,并将所述目标文本段落作为所述目标内容信息。
4.根据权利要求3所述的方法,其中,所述根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量,从所述候选文本中确定目标文本段落,包括:
根据所述字符数量以及所述字符总数量,确定所述候选文本段落包含的模板关键词的字符占比;
根据所述字符占比以及字符占比门限值,从所述候选文本段落中确定目标文本段落。
5.根据权利要求2所述的方法,其中,所述根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息,包括:
将所述目标内容模板中的起始模板句式和结束模板句式分别与所述目标文本原文进行匹配,确定属于所述起始模板句式的起始文本语句以及属于所述结束模板句式的结束文本语句;
根据所述目标文本原文中处于所述起始文本语句和所述结束文本语句之间的文本原文,确定所述目标内容信息。
6.根据权利要求1所述的方法,所述从所述目标文本原文中提取属于所述目标内容类型的目标内容信息之后,还包括:
确定各所述目标内容信息之间的文本相似性;
将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除所述相似内容信息之外的目标内容信息作为非相似内容信息;
根据各所述相似内容信息的字符数量,从所述相似内容信息中确定筛选内容信息;
将所述筛选内容信息和所述非相似内容信息作为待展示内容信息,并将所述待展示内容信息进行展示。
7.根据权利要求6所述的方法,其中,所述将所述待展示内容信息进行展示,包括:
确定各所述待展示内容信息的发布时间,并按照所述发布时间对各所述待展示内容信息进行顺序展示。
8.根据权利要求1-7中任一所述的方法,其中,所述根据获取的查询请求,从候选文本原文中确定目标文本原文,包括:
将所述查询请求中包括的查询关键词,与所述候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从所述候选文本原文中确定目标文本原文。
9.一种信息提取装置,包括:
文本原文确定模块,用于根据获取的查询请求,从候选文本原文中确定目标文本原文;
信息提取模块,用于根据获取的目标内容类型,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
10.根据权利要求9所述的装置,其中,所述信息提取模块,具体用于:
将所述目标内容类型与候选内容类型和候选内容模板之间的关联关系进行匹配,确定所述目标内容类型关联的目标内容模板;
根据所述目标内容模板,从所述目标文本原文中提取属于所述目标内容类型的目标内容信息。
11.根据权利要求10所述的装置,其中,所述信息提取模块,具体还用于:
将所述目标内容模板中的模板关键词与所述目标文本原文进行匹配,确定包含有所述模板关键词的候选文本段落;
根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量,从所述候选文本中确定目标文本段落,并将所述目标文本段落作为所述目标内容信息。
12.根据权利要求11所述的装置,其中,所述信息提取模块,具体还用于:
根据所述字符数量以及所述字符总数量,确定所述候选文本段落包含的模板关键词的字符占比;
根据所述字符占比以及字符占比门限值,从所述候选文本段落中确定目标文本段落。
13.根据权利要求10所述的装置,其中,所述信息提取模块,具体用于:
将所述目标内容模板中的起始模板句式和结束模板句式分别与所述目标文本原文进行匹配,确定属于所述起始模板句式的起始文本语句以及属于所述结束模板句式的结束文本语句;
根据所述目标文本原文中处于所述起始文本语句和所述结束文本语句之间的文本原文,确定所述目标内容信息。
14.根据权利要求9所述的装置,所述装置还包括信息展示模块,具体用于:
确定各所述目标内容信息之间的文本相似性;
将文本相似性大于相似性门限值的至少两条目标内容信息,作为相似内容信息,并将除所述相似内容信息之外的目标内容信息作为非相似内容信息;
根据各所述相似内容信息的字符数量,从所述相似内容信息中确定筛选内容信息;
将所述筛选内容信息和所述非相似内容信息作为待展示内容信息,并将所述待展示内容信息进行展示。
15.根据权利要求14所述的装置,其中,所述信息展示模块,具体还用于:
确定各所述待展示内容信息的发布时间,并按照所述发布时间对各所述待展示内容信息进行顺序展示。
16.根据权利要求9-15中任一所述的装置,其中,所述文本原文确定模块,具体用于:
将所述查询请求中包括的查询关键词,与所述候选文本原文的文本标题和/或文本正文进行匹配,并根据匹配结果从所述候选文本原文中确定目标文本原文。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375178.9A CN114661891A (zh) | 2022-04-11 | 2022-04-11 | 信息提取方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375178.9A CN114661891A (zh) | 2022-04-11 | 2022-04-11 | 信息提取方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661891A true CN114661891A (zh) | 2022-06-24 |
Family
ID=82035898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210375178.9A Pending CN114661891A (zh) | 2022-04-11 | 2022-04-11 | 信息提取方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661891A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070022072A1 (en) * | 2005-07-01 | 2007-01-25 | The Boeing Company | Text differentiation methods, systems, and computer program products for content analysis |
JP2009301140A (ja) * | 2008-06-10 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN104718541A (zh) * | 2012-09-12 | 2015-06-17 | 指尖翻动公司 | 从搜索请求中生成数字杂志的用户定义的章节 |
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
US20160078102A1 (en) * | 2014-09-12 | 2016-03-17 | Nuance Communications, Inc. | Text indexing and passage retrieval |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110597951A (zh) * | 2019-08-13 | 2019-12-20 | 平安科技(深圳)有限公司 | 文本解析方法、装置、计算机设备和存储介质 |
CN111950253A (zh) * | 2020-08-28 | 2020-11-17 | 鼎富智能科技有限公司 | 用于裁判文书的证据信息提取方法及装置 |
CN113010657A (zh) * | 2021-03-31 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于解答文本的答案处理方法和答案推荐方法 |
-
2022
- 2022-04-11 CN CN202210375178.9A patent/CN114661891A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070022072A1 (en) * | 2005-07-01 | 2007-01-25 | The Boeing Company | Text differentiation methods, systems, and computer program products for content analysis |
JP2009301140A (ja) * | 2008-06-10 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
CN104718541A (zh) * | 2012-09-12 | 2015-06-17 | 指尖翻动公司 | 从搜索请求中生成数字杂志的用户定义的章节 |
CN105005562A (zh) * | 2014-04-15 | 2015-10-28 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
US20160078102A1 (en) * | 2014-09-12 | 2016-03-17 | Nuance Communications, Inc. | Text indexing and passage retrieval |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110597951A (zh) * | 2019-08-13 | 2019-12-20 | 平安科技(深圳)有限公司 | 文本解析方法、装置、计算机设备和存储介质 |
CN111950253A (zh) * | 2020-08-28 | 2020-11-17 | 鼎富智能科技有限公司 | 用于裁判文书的证据信息提取方法及装置 |
CN113010657A (zh) * | 2021-03-31 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于解答文本的答案处理方法和答案推荐方法 |
Non-Patent Citations (2)
Title |
---|
任雪娇: "面向领域数据的高效数据获取方法研究与应用", 信息科技, 15 August 2021 (2021-08-15) * |
李启运: "FastFace:实时鲁棒的人脸检测算法", 中国图象图形学报, 16 October 2019 (2019-10-16) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428049B (zh) | 一种事件专题的生成方法、装置、设备和存储介质 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113657113B (zh) | 文本处理方法、装置和电子设备 | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN115982376A (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN111861596A (zh) | 一种文本分类方法和装置 | |
CN114090601A (zh) | 一种数据筛选方法、装置、设备以及存储介质 | |
CN115510247A (zh) | 一种电碳政策知识图谱构建方法、装置、设备及存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN113301382A (zh) | 视频处理方法、设备、介质及程序产品 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
CN115600592A (zh) | 文本内容的关键信息提取方法、装置、设备及介质 | |
CN114661891A (zh) | 信息提取方法、装置、电子设备和介质 | |
CN114491232A (zh) | 信息查询方法、装置、电子设备和存储介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN111368036A (zh) | 用于搜索信息的方法和装置 | |
CN114186552B (zh) | 文本分析方法、装置、设备及计算机存储介质 | |
CN113377922B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 | |
CN113377921B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |