CN113220843A - 确定信息关联关系的方法、装置、存储介质和设备 - Google Patents
确定信息关联关系的方法、装置、存储介质和设备 Download PDFInfo
- Publication number
- CN113220843A CN113220843A CN202110558800.5A CN202110558800A CN113220843A CN 113220843 A CN113220843 A CN 113220843A CN 202110558800 A CN202110558800 A CN 202110558800A CN 113220843 A CN113220843 A CN 113220843A
- Authority
- CN
- China
- Prior art keywords
- information
- employee
- subordinate
- text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种确定信息关联关系的方法、装置、存储介质和设备,设计文本信息处理的领域,该方法包括:识别目标文本中的主体信息和第一从属信息;从数据库中获取每个主体信息对应主体的第二从属信息,所述数据库包括多个主体的主体信息和每个主体的从属信息;根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。本公开提高了文本信息识别的准确率和有效率,对于挖据客户资源具有重要的实用价值。
Description
技术领域
本公开涉及文本信息处理的领域,具体地,涉及一种确定信息关联关系的方法、装置、存储介质和设备。
背景技术
为了拓展业务挖掘客户信息,对于一些目标文本需要提取其中有效的客户信息及相关关系,在现有技术中,可以采用自然语言处理模型识别文本中的实体信息,例如,企业标识、人名与职位名称等实体类型,但是现有技术的关系识别只能通过关联距离字段最少的两个实体信息来确定,逻辑简单,准确率低,对挖掘客户并没有实际价值。
发明内容
为了解决上述问题,本公开的目的是提供一种确定信息关联关系的方法、装置、存储介质和设备。
第一方面,本公开提供一种确定信息关联关系的方法,所述方法包括:识别目标文本中的主体信息和第一从属信息;从数据库中获取每个主体信息对应主体的第二从属信息,所述数据库包括多个主体的主体信息和每个主体的从属信息;根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
可选地,所述识别目标文本中的主体信息和第一从属信息集包括:将所述目标文本作为预先训练的文本信息识别模型的输入,得到所述主体信息和所述第一从属信息。
可选地,所述文本信息识别模型通过以下方式预先训练:获取文本训练样本,所述文本训练样本包括样本文本,以及所述样本文本对应的主体样本信息和从属样本信息;根据所述样本文本,所述主体样本信息和所述从属样本信息对目标训练模型进行训练,得到所述文本信息识别模型。
可选地,所述从数据库中获取每个主体信息对应的第二从属信息包括:通过所述主体信息在所述数据库中进行检索,得到所述每个所述主体信息对应的第二从属信息。
可选地,所述主体信息包括企业信息,所述从属信息包括员工信息,所述企业信息包括企业标识,所述员工信息包括员工名称和员工职位信息;所述根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系包括:在第一员工信息和第二员工信息中存在目标员工信息的情况下,若所述第二员工信息中存在所述目标员工信息对应的员工职位信息,确定所述企业标识、所述目标员工信息以及所述员工职位信息三者之间存在关联关系;其中,所述目标员工信息为所述第一员工信息和所述第二员工信息中的相同员工信息。
可选地,所述方法还包括:若所述第二员工信息中不存在所述目标员工信息对应的员工职位信息,则将所述目标文本中与所述目标员工信息间隔的字段最少的员工职位信息,作为所述目标员工信息对应的员工职位信息。
可选地,所述方法还包括:从目标网站的网络页面抓取多个企业的企业信息和每个企业的员工信息,并将抓取到的企业信息和员工信息存储至所述数据库。
第二方面,提供一种确定信息关联关系的装置,所述装置包括:文本识别模块,用于识别目标文本中的主体信息和第一从属信息;数据获取模块,用于从数据库中获取每个主体信息对应主体的第二从属信息,所述数据库包括多个主体的主体信息和每个主体的从属信息;关系判断模块,用于根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
可选地,所述文本识别模块,用于将所述目标文本作为预先训练的文本信息识别模型的输入,得到所述主体信息和所述第一从属信息。
可选地,所述文本信息识别模型通过以下方式预先训练:获取文本训练样本,所述文本训练样本包括样本文本,以及所述样本文本对应的主体样本信息和从属样本信息;根据所述样本文本,所述主体样本信息和所述从属样本信息对目标训练模型进行训练,得到所述文本信息识别模型。
可选地,所述数据获取模块,用于通过所述主体信息在所述数据库中进行检索,得到所述每个所述主体信息对应的第二从属信息。
可选地,所述主体信息包括企业信息,所述从属信息包括员工信息,所述企业信息包括企业标识,所述员工信息包括员工名称和员工职位信息;所述关系判断模块,用于在第一员工信息和第二员工信息中存在目标员工信息的情况下,若所述第二员工信息中存在所述目标员工信息对应的员工职位信息,确定所述企业标识、所述目标员工信息以及所述员工职位信息三者之间存在关联关系;其中,所述目标员工信息为所述第一员工信息和所述第二员工信息中的相同员工信息。
可选地,所述关系判断模块,还用于若所述第二员工信息中不存在所述目标员工信息对应的员工职位信息,则将所述目标文本中与所述目标员工信息间隔的字段最少的员工职位信息,作为所述目标员工信息对应的员工职位信息。
可选地,所述装置还包括:数据库维护模块,用于从目标网站的网络页面抓取多个企业的企业信息和每个企业的员工信息,并将抓取到的企业信息和员工信息存储至所述数据库。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法的步骤。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种确定信息关联关系方法的流程图;
图2是根据一示例性实施例示出的一种文本信息识别模型训练方法的流程图;
图3是根据一示例性实施例示出的另一种确定信息关联关系方法的流程图;
图4是根据一示例性实施例示出的一种确定信息关联关系装置的框图;
图5是根据一示例性实施例示出的另一种确定信息关联关系装置的框图;
图6是根据一示例性实施例示出的一种文本信息识别模型训练装置的框图;
图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
首先,对本公开的一种应用场景进行说明,本公开可以应用于识别目标文本中实体信息关联关系的场景,如识别包含企业标识、员工名称的目标文本,在该场景下,目标文本中有多个企业名、人名,但是现有技术逻辑简单,在识别实体信息的集合之后,并不能把算法识别出的企业标识和员工名称准确对应匹配,这样对于挖掘客户资源并没有什么实际价值。
为了解决上述问题,本公开提供一种确定信息关联关系的方法、装置、存储介质和设备。该方法能够通过将文本信息识别模型和数据库相结合的方式,提升模型的识别准确率,能够有效地将企业标识与员工名称按对应关系匹配,解决了实体信息相关关系识别准确率低的问题,避免了人工核查的步骤,使文本识别的速度更快。下面结合具体实施例对本公开进行说明。
图1为本公开实施例提供的一种确定信息关联关系的方法,如图1所示,该方法包括:
S101、识别目标文本中的主体信息和第一从属信息。
其中,该目标文本为至少包含主体信息和第一从属信息的文本,该第一从属信息可以是该主体信息的从属信息,例如,该主体信息可以是企业信息,该从属信息可以是员工信息,该企业信息可以是企业标识,该员工信息可以是员工名称和对应的职位名称。又如,该主体信息可以是游戏信息,该从属信息可以是角色信息,该游戏信息可以是游戏名称,该角色信息可以是角色名称和角色职业。
在本步骤一种可能的实现方式中,通过将该目标文本作为预先训练的文本信息识别模型的输入,得到该主体信息和该第一从属信息。
例如,以该主体信息是企业标识,该从属信息是员工名称和职位名称为例进行说明,若该目标文本为:张三是阿里企业的经理,则将该目标文本作为预先训练的文本信息识别模型的输入,可以得到企业标识是阿里,员工名称是张三,职位名称是经理。
又如,以该主体信息是游戏名称,该从属信息是角色名称和角色职业为例进行说明,若该目标文本是:李白是王者荣耀的剑客,则将该目标文本作为预先训练的文本信息识别模型的输入,可以得到游戏名称是王者荣耀,角色名称是李白,角色属性是剑客。
S102、从数据库中获取每个主体信息对应主体的第二从属信息,该数据库包括多个主体的主体信息和每个主体的从属信息。
其中,可以通过该主体信息在该数据库中进行检索,得到该每个该主体信息对应的第二从属信息。
其中,该数据库可以是带有检索功能并包含主体信息和对应主体信息的第二从属信息的数据库。
示例地,该主体信息可以是企业信息,该第二从属信息可以是员工信息,例如,可以对网络中公开的企业信息进行爬取,该爬取信息包括:企业标识、企业所在行业、企业注册资金、企业相关人、企业相关人员对应职位;对企业标识进行过滤,过滤掉政府机关、学校、银行等行业,保留带有企业性质的单位;最后将整理好的数据导入该数据库。或者,主体信息可以是游戏信息,第二从属信息可以是角色信息,对多种游戏及其相关角色信息进行搜集整理并导入数据库。
需要说明的是,对于同一职位,不同的企业可能存在不同的称呼,例如,董事长、执行董事(法定代表人)兼经理、董事总经理及董事局主席等职位称呼都可以看做企业的董事长,总经理、厂长、机构负责人及局长等职位称呼都可以看做企业的总经理,因此,在爬取企业信息后将该职位称呼整理归类再导入数据库。
在本步骤一种可能的实现方式中,主体信息可以是企业标识,第二从属信息可以是员工信息,可以使用ES(Elasticsearch,分布式文档存储)作为数据库,将整理好的数据导入ES,可以将企业标识的数据类型设置为关键词+文本的类型,该数据类型既可以通过关键字进行检索查询展示相关信息,也可以进行文本查询,通过对查询内容进行分词搜索并将结果进行遍历,展示相关查询信息;其余从属信息的信息类型可以设置为关键词类型,只能作为关键字查询展示。首先调整ES的搜索模式为关键词搜索模式,该搜索模式将输入内容作为关键词进行搜索,查询相关信息,速度较快节省资源,将该模型输出的属于企业标识这一集合的结果作为输入进行搜索,若能得到结果,则可以将结果中的员工信息作为第二员工信息;若不能返回结果,则再将ES搜索模型调整为文本搜索模式,该搜索模式可以通过将输入的内容进行分词,然后对不同分词进行搜索并将结果进行遍历,展示相关查询信息。
需要说明的是,上述职位类型的归类、数据库的选择和数据类型的设置都可以根据经验值或者试验值进行预先设置,这里不作限定。
S103、根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
在本步骤一种可能的实现方式中,以上述主体信息为企业信息,从属信息为员工信息的实施例为例,在第一员工信息和第二员工信息中存在目标员工信息的情况下,若所述第二员工信息中存在所述目标员工信息对应的员工职位信息,确定所述企业标识、所述目标员工信息以及所述员工职位信息三者之间存在关联关系;其中,所述目标员工信息为所述第一员工信息和所述第二员工信息中的相同员工信息。
示例地,主体信息可以是企业标识,第二从属信息可以是员工信息,可以使用ES作为数据库,通过对企业标识的查询,判断查询该结果中是否存在第二员工信息与算法识别的第一员工名称有交集,若有交集,则可确定该交集中的第一员工名称从属于作为搜索输入的该企业标识,并取ES中该第一员工的其它相关信息,例如,目标文本可以是,阿里的部门经理张三曾经在腾讯任职,通过文本信息识别模型,可以提取出企业标识为阿里和腾讯,第一员工名称为张三,通过数据库查询可以分别得到阿里和腾讯及其相关人员信息,再进行交集判断,确认张三目前是阿里的员工,最后提取查询结果中和张三相关的信息,得到阿里-部门经理-张三的这一关联信息,避免张三和腾讯的关系重叠交叉。若该结果中没有该第一员工名称对应的职位,则取算法识别的目标文本中距该人姓名字段最少的职位名称作为该第一员工名称对应的职位名称。或者,主体信息可以是游戏名称,第二从属信息可以是角色信息,例如,目标文本可以是,王者荣耀中的李白原型是历史中的唐代大诗人李白,通过文本信息识别模型,可以筛选舍弃掉唐代和大诗人这些无用的实体信息,避免李白这一实体信息的重叠和关系的交叉,然后提取出游戏名称是王者荣耀,第一角色名称是李白,通过数据库查询王者荣耀,可以得到该游戏相关信息,再进行交集判断,确认李白是该游戏的角色,最后提取查询结果中和李白相关的信息,得到王者荣耀-剑客-李白的这一关联信息。
需要说明的是,根据第一从属信息和第二从属信息,还可以通过其他方式来确定所述主体信息和所述第一从属信息的关联关系,上述通过集合判断只是一种方式,这里不作限定。
这样通过预先训练的文本信息识别模型,将目标文本作为输入,可以提取该目标文本的主体信息和从属信息,再结合数据库对主体信息进行检索,可以准确确定该主体信息和该从属信息的关联关系,对于挖掘客户信息有极大的实用价值。
图2是根据一示例性实施例示出的一种训练文本信息识别模型的流程图。如图2所示,该文本信息识别模型是通过以下方式训练的:
S201、获取文本信息识别模型的训练样本集。
该训练样本集可以是多个文本训练样本,该文本训练样本包括样本文本,以及该样本文本对应的主体样本信息和从属样本信息。
S202、根据训练样本集对预设模型进行训练,得到文本信息识别模型。
根据该样本文本,该主体样本信息和该从属样本信息对目标训练模型进行训练,得到该文本信息识别模型。
在本步骤一种可能的实现方式中,以上述主体信息为企业信息,从属信息为员工信息的实施例为例,可以将该样本文本按字切分,将每个字或字符初始化为期望为0、标准差为1的100维向量,这样可以最大化展示每个字或者字符的特征。
该文本信息识别模型可以是双层BiLSTM+CRF模型,可以将文本最大长度设为200,既可以包含大部分目标文本的长度,又可以将过长的目标文本中无效信息筛选掉,然后可以将该BiLSTM模型第一层神经元的个数设为256,第二层神经元个数设为128,之后再加一层全连接层,最终每一位置有三个输出,分为别对应企业标识、员工姓名、员工职位的得分,然后再经过CRF计算状态转移函数后得出每种实体的分类结果,使用CRF学习状态转移矩阵可以对输出进行筛选,以获得所需的有效信息。
在LSTM+CRF得出结果后,进行全局归一化处理,求出标注结果的概率,得到损失函数。
最终的目标就是使得到的输出结果和训练样本集中对应样本文本的主体样本信息和从属样本信息差异化最小,在这个过程中,要最大化真实标记序列的概率,也就训练了转移概率矩阵和BiLSTM中的参数。
模型在测试集表现效果良好的情况下,最终输入文本,将模型识别出的所有主体信息和所有第一从属信息分别形成一个集合。
需要说明的是,上述模型的选择以及上述设置的文本长度和神经元个数都可以根据经验值或者试验值进行预先设置,这里不作限定。
这样,通过BiLSTM模型,将目标文本作为输入,提取主体信息和从属信息集合,再经过CRF学习状态转移矩阵的筛选,可以更为准确地将有效信息从目标文本中提取出来。
图3为本公开实施例提供的一种确定信息关联关系的方法,如图3所示,本实施例中以主体信息为企业信息,从属信息为员工信息,包括员工名称和职位信息为例进行说明,该方法包括:
S301、获取目标文本。
该目标文本中至少包括企业信息和员工信息。
S302、将该目标文本作为预先训练的文本信息识别模型的输入,得到该主体信息和第一从属信息。
该文本信息识别模型通过以下方式预先训练:获取文本训练样本,该文本训练样本包括样本文本,以及该样本文本对应的主体样本信息和从属样本信息;根据该样本文本,该主体样本信息和该从属样本信息对目标训练模型进行训练,得到该文本信息识别模型;通过该文本信息识别模型,可以提取出企业信息、员工名称和职位信息并分别形成集合。
S303、通过该主体信息在该数据库中进行检索,得到该每个该主体信息对应的第二从属信息。
该数据库中的信息为预先存储的准确信息;
从目标网站的网络页面抓取多个企业的企业信息和每个企业的员工信息,并将抓取到的企业信息和员工信息存储至该数据库。
S304、确定第一员工信息和第二员工信息中是否存在目标员工信息。
在确定第一员工信息和第二员工信息中存在目标员工信息的情况下,执行步骤S305;
在确定第一员工信息和第二员工信息中不存在目标员工信息的情况下,执行步骤S306。
S305、若该第二员工信息中存在该目标员工信息对应的员工职位信息,确定该企业标识、该目标员工信息以及该员工职位信息三者之间存在关联关系;
其中,该目标员工信息为该第一员工信息和该第二员工信息中的相同员工信息。
S306、若该第二员工信息中不存在该目标员工信息对应的员工职位信息,则将该目标文本中与该目标员工信息间隔的字段最少的员工职位信息,作为该目标员工信息对应的员工职位信息。
需要说明的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
采用上述方案,可以将目标文本中的有效信息及其相关关系准确快速提取出来,极大地提高了文本信息的提取效率和准确率,对于挖掘客户信息具有重要的实际意义。
图4是根据一示例性实施例示出的一种确定信息关联关系装置的框图,如图4所示,该装置包括:
文本识别模块401,用于识别目标文本中的主体信息和第一从属信息;
可选地,用于将该目标文本作为预先训练的文本信息识别模型的输入,得到该主体信息和该第一从属信息。
数据获取模块402,用于从数据库中获取每个主体信息对应主体的第二从属信息;
该数据库包括多个主体的主体信息和每个主体的从属信息;
可选地,通过该主体信息在该数据库中进行检索,得到该每个该主体信息对应的第二从属信息。
关系判断模块403,用于根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
可选地,该主体信息包括企业信息,该从属信息包括员工信息,该企业信息包括企业标识,该员工信息包括员工名称和员工职位信息;该关系判断模块包括:
用于在第一员工信息和第二员工信息中存在目标员工信息的情况下,若该第二员工信息中存在该目标员工信息对应的员工职位信息,确定该企业标识、该目标员工信息以及该员工职位信息三者之间存在关联关系;
其中,该目标员工信息为该第一员工信息和该第二员工信息中的相同员工信息。
还用于若该第二员工信息中不存在该目标员工信息对应的员工职位信息,则将该目标文本中与该目标员工信息间隔的字段最少的员工职位信息,作为该目标员工信息对应的员工职位信息。
采用上述装置,可以快速获取目标文本中的实体信息及其相互之间的关联关系,准确性高,提高了文本信息的提取效率和准确率,对于挖掘客户信息具有重要的实际意义。
另外,出于信息变更的原因,例如员工人事变动,数据库的信息需要及时更新,因此,在本公开另一实施例中,如图5所示,
该装置还包括:数据库维护模块404,用于从目标网站的网络页面抓取多个企业的企业信息和每个企业的员工信息,并将抓取到的企业信息和员工信息存储至所述数据库。
这样,采用以上装置可以每隔一段固定时间对数据库的数据信息进行更新,及时维护数据库,提高数据库信息数据准确率。
可选地,如图6所示,该装置还包括:
训练样本集获取模块405,用于获取文本信息识别模型的训练样本集。
可选地,该训练样本集可以是多个文本训练样本,该文本训练样本包括样本文本,以及该样本文本对应的主体样本信息和从属样本信息。
模型训练模块406,用于根据训练样本集对预设模型进行训练,得到文本信息识别模型。
可选地,通过训练样本集多次对该模型进行输入输出对比,不断调整该模型相关参数,使该模型的输入输出与训练样本集差异化达到最小。
采用上述装置,可以有效地对文本信息识别模型进行训练,提高模型的文本识别准确率,减少无效信息的干扰,对于挖掘客户获取有效信息具有重要的意义。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件707中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的确定信息关联关系的方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件707发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件707用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他7G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件707可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的确定信息关联关系的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的确定信息关联关系的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述确定信息关联关系的方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述确定信息关联关系方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种确定信息关联关系的方法,其特征在于,所述方法包括:
识别目标文本中的主体信息和第一从属信息;
从数据库中获取每个主体信息对应主体的第二从属信息,所述数据库包括多个主体的主体信息和每个主体的从属信息;
根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述识别目标文本中的主体信息和第一从属信息集包括:
将所述目标文本作为预先训练的文本信息识别模型的输入,得到所述主体信息和所述第一从属信息。
3.根据权利要求2所述的方法,其特征在于,所述文本信息识别模型通过以下方式预先训练:
获取文本训练样本,所述文本训练样本包括样本文本,以及所述样本文本对应的主体样本信息和从属样本信息;
根据所述样本文本,所述主体样本信息和所述从属样本信息对目标训练模型进行训练,得到所述文本信息识别模型。
4.根据权利要求1所述的方法,其特征在于,所述从数据库中获取每个主体信息对应的第二从属信息包括:
通过所述主体信息在所述数据库中进行检索,得到所述每个所述主体信息对应的第二从属信息。
5.根据权利要求1所述的方法,其特征在于,所述主体信息包括企业信息,所述从属信息包括员工信息,所述企业信息包括企业标识,所述员工信息包括员工名称和员工职位信息;所述根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系包括:
在第一员工信息和第二员工信息中存在目标员工信息的情况下,若所述第二员工信息中存在所述目标员工信息对应的员工职位信息,确定所述企业标识、所述目标员工信息以及所述员工职位信息三者之间存在关联关系;
其中,所述目标员工信息为所述第一员工信息和所述第二员工信息中的相同员工信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第二员工信息中不存在所述目标员工信息对应的员工职位信息,则将所述目标文本中与所述目标员工信息间隔的字段最少的员工职位信息,作为所述目标员工信息对应的员工职位信息。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
从目标网站的网络页面抓取多个企业的企业信息和每个企业的员工信息,并将抓取到的企业信息和员工信息存储至所述数据库。
8.一种确定信息关联关系的装置,其特征在于,所述装置包括:
文本识别模块,用于识别目标文本中的主体信息和第一从属信息;
数据获取模块,用于从数据库中获取每个主体信息对应主体的第二从属信息,所述数据库包括多个主体的主体信息和每个主体的从属信息;
关系判断模块,用于根据所述第一从属信息和所述第二从属信息,确定所述主体信息和所述第一从属信息的关联关系。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558800.5A CN113220843A (zh) | 2021-05-21 | 2021-05-21 | 确定信息关联关系的方法、装置、存储介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558800.5A CN113220843A (zh) | 2021-05-21 | 2021-05-21 | 确定信息关联关系的方法、装置、存储介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113220843A true CN113220843A (zh) | 2021-08-06 |
Family
ID=77097790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110558800.5A Withdrawn CN113220843A (zh) | 2021-05-21 | 2021-05-21 | 确定信息关联关系的方法、装置、存储介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220843A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329756A (zh) * | 2021-10-21 | 2022-11-11 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
-
2021
- 2021-05-21 CN CN202110558800.5A patent/CN113220843A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329756A (zh) * | 2021-10-21 | 2022-11-11 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN111105209A (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
CN114860913B (zh) | 智能问答系统构建方法、问答处理方法及装置 | |
CN110880142A (zh) | 一种风险实体获取方法及装置 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN113220843A (zh) | 确定信息关联关系的方法、装置、存储介质和设备 | |
US20230290168A1 (en) | Selecting files for intensive text extraction | |
CN113886535B (zh) | 基于知识图谱的问答方法、装置、存储介质及电子设备 | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN115292506A (zh) | 应用于办公领域的知识图谱本体构建方法和装置 | |
CN113836377A (zh) | 信息关联方法、装置、电子设备及存储介质 | |
CN116775813B (zh) | 业务搜索方法、装置、电子设备及可读存储介质 | |
CN114357194B (zh) | 种子数据的扩充方法、装置、计算机设备及存储介质 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 | |
CN115795023B (zh) | 文档推荐方法、装置、设备以及存储介质 | |
CN114861062B (zh) | 信息过滤方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210806 |
|
WW01 | Invention patent application withdrawn after publication |