CN106844336A - 数据模型处理方法及装置 - Google Patents

数据模型处理方法及装置 Download PDF

Info

Publication number
CN106844336A
CN106844336A CN201611219684.XA CN201611219684A CN106844336A CN 106844336 A CN106844336 A CN 106844336A CN 201611219684 A CN201611219684 A CN 201611219684A CN 106844336 A CN106844336 A CN 106844336A
Authority
CN
China
Prior art keywords
data model
data
user
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611219684.XA
Other languages
English (en)
Inventor
杨帆
曹恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEYONDSOFT Corp
Original Assignee
BEYONDSOFT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEYONDSOFT Corp filed Critical BEYONDSOFT Corp
Priority to CN201611219684.XA priority Critical patent/CN106844336A/zh
Publication of CN106844336A publication Critical patent/CN106844336A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种数据模型处理方法及装置。其中,该方法包括:通过获取文档中使用自然语言记录的文本文字;对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;至少根据所述多个数据集合得到第一数据模型;对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型。本发明解决了不能根据语义构建数据模型的技术问题。

Description

数据模型处理方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据模型处理方法及装置。
背景技术
互联网是当今最主要的网络信息集散地,汇聚了大量的信息,信息检索技术作为一种便捷的信息查看方式在信息获取的过程中的作用越来越重。传统的搜索引擎大多使用关键词匹配的方式,通过关键词检索,在由关键词组成的数据模型库中提取对应数据模型。
针对上述不能根据语义构建数据模型的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据模型处理方法及装置,以至少解决不能根据语义构建数据模型的技术问题。
根据本发明实施例的一个方面,提供了一种数据模型处理方法,包括:获取文档中使用自然语言记录的文本文字;对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;至少根据所述多个数据集合得到第一数据模型;对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型。
进一步地,对所述第一数据模型进行修正后得到所述第二数据模型包括:获取预先配置的所述行业对应的最优数据模型;根据所述最优数据模型对所述第一数据模型进行修正得到所述第二数据模型。
进一步地,对所述第一数据模型进行修正后得到所述第二数据模型包括:将所述第一数据模型提供给用户;接收所述用户对所述第一数据模型的修改;将修改后的所述第一数据模型作为所述第二数据模型。
进一步地,通过导引将所述第一数据模型提供给用户,其中,所述导引用于指导所述用户对所述第一数据模型进行修改;通过所述导引接收所述用户对所述第一数据模型的修改。
进一步地,所述第一数据模型包括以下至少之一:数据使用用户集合、用户类型集合、至少一个实体集合、实体的属性集合、业务规则集合、实体所属主题集合、以及数据流程集合。
进一步地,接收所述用户对所述第一数据模型的修改包括以下至少之一:所述第一数据模型中的集合的增加或减少、所述第一数据模型中的集合的内容的增加或减少。
根据本发明实施例的另一方面,还提供了一种数据模型处理装置,包括:获取单元,用于获取文档中使用自然语言记录的文本文字;判断单元,用于对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;构造单元,用于将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;建模单元,用于至少根据所述多个数据集合得到第一数据模型;修正单元,用于对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型。
进一步地,所述修正单元包括:获取模块,用于获取预先配置的所述行业对应的最优数据模型;修正模块,用于根据所述最优数据模型对所述第一数据模型进行修正得到所述第二数据模型。
进一步地,所述修正单元包括:发送模块,用于将所述第一数据模型提供给用户;接收模块,用于接收所述用户对所述第一数据模型的修改;替换模块,用于将修改后的所述第一数据模型作为所述第二数据模型。
进一步地,导引发送模块,用于通过导引将所述第一数据模型提供给用户,其中,所述导引用于指导所述用户对所述第一数据模型进行修改;导引接收模块,用于通过所述导引接收所述用户对所述第一数据模型的修改。
进一步地,所述第一数据模型包括以下至少之一:数据使用用户集合、用户类型集合、至少一个实体集合、实体的属性集合、业务规则集合、实体所属主题集合、以及数据流程集合。
进一步地,所述包括以下至少之一:所述第一数据模型中的集合的增加或减少、所述第一数据模型中的集合的内容的增加或减少。
在本发明实施例中,通过获取文档中使用自然语言记录的文本文字;对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;至少根据所述多个数据集合得到第一数据模型;对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型,进而解决了不能根据语义构建数据模型的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据模型处理方法的流程图;
图2是根据本发明实施例的一种数据模型处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种数据模型处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据模型处理方法的示意图,如图1所示,该方法包括如下步骤:
步骤S102,获取文档中使用自然语言记录的文本文字;
步骤S104,对文本文字进行分词以及语义判断,将文本文字分为多个词句;
步骤S106,将多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,数据模型包括多个数据集合;
步骤S108,至少根据多个数据集合得到第一数据模型;
步骤S110,对第一数据模型进行修正后得到第二数据模型,其中,第二数据模型为文档对应的行业所对应的数据模型。
采用上述实施例,服务器对文档中使用自然语言记录的文本文字进行分词处理和语义判断,将文档内的文本文字按照语义划分为多个词句,再将划分后的词句按照语义分类,将不同类型的词句分配到不同的多个数据集合中,并根据分配的多个数据集合构造数据模型,在构造数据模型的过程中,至少根据多个数据集合得到第一数据模型,再对第一模型进行修正,得到文档对应的行业所对应的模型,即第二数据模型。该实施例,通过语义判断将文档中的自然文字划分成多个词句组成的数据集合,并根据该多个数据集合生成该文档对应的第一数据模型,以及对第一数据模型的修正,得到文档对应的行业所对应的第二数据模型,可以使根据文档内文本文字构建的数据模型更加准确,解决了不能根据语义构建数据模型的技术问题。
可选地,上述数据模型的处理过程发生在服务器端。
作为一种可选的实施例,文档可以是使用自然语言记录的某一行业内信息的文本文字集合。例如在药品行业内,各药品的说明书都是使用自然语言记录药品信息的文字集合,将各药品的说明书进行整理,便可生成记录说明书信息的文档。
作为一种可选地实施例,通过服务器中预定的文字转换系统和语言识别引擎,可以将使用自然语言和非自然语言记录文本文字转换为统一的语言。其中,使用自然语言记录的文本文字,可以是用不同种类的自然语言记录的文本文字信息。
例如,在中国范围内,将会使用中文简体记录文本文字信息;在美国、英国、以及加拿大等使用英语为自然语言的国家内,将会使用英语记录文本文字信息。对于不同种类的自然语言,其词性、语法和句法之间会存在一定的差异,若全部采用某种语言的固定语言习惯对不同种类的自然语言进行分词,可能会使划分的多个词句不准确,甚至无法进行分词。因此,在进行分词操作之前,通过服务器中预定的文字转换系统和语言识别引擎,将使用不同种类的自然语言记录的文本文字转换为使用统一种类的自然语言记录的文本文字。
可选地,转换后的统一种类的自然语言可以是根据用户所在国籍的官方语言或用户所在地域的官方语言预先设置的语言。通过将多种自然语言记录的文本文字语言转换为统一种类的自然语言,可以在后续过程中按照固定语言习惯对文本文字划分为多个词句。
作为另一种可选的实施例,进行语义划分操作的服务器中包括预定的文字转换系统和语言识别引擎。其中,预定的文字转换系统将文档中使用自然语言记录的文本文字转换UTF-8格式的文字,其中,UTF-8,即8-bit Unicode Transformation Format,是一种针对统一码的可变长度字符编码,又称万国码,是用在网页上可以统一中文简体以及其他语言的编码格式,将文档中的自然语言记录的文字转换为UTF-8格式的文字,可以便于服务器对该文字在以后的操作过程中的使用。
可选地,服务器中除文字转换系统外,还包括语言识别引擎。语言识别引擎接收文字转换系统生成的UTF-8格式的文本文字,再将该文本文字进行分词和语义判断,将文档中的全部文本文字按照语义判断划分为多个词句。其中,语义判断过程是通过语言识别引擎,将转换格式后的文本文字按照该文字语言习惯进行分词,将一段或多段完整的文字划分为多个词句,再标记划分后每个词句的词性,以及分析每个词句的句法,再根据词句的词性或者词句的句法,将划分后的词句进行分类。
可选地,将通过划分得到的多个词句按照该自然语言的语言习惯进行词性,或句法标注,将词性,或句法相同的词句划分至同一类型中。其中,划分后的多个词句包括多个词性,或句法的类别,每个类别中的全部词句构成该类别的数据集合。
另一种可选地,可以将用于表述同一事物的词句划分为同一类型。其中,划分后的多个词句可能表述多个事物,每个表述的事物表示一个类别,每个类别中的全部词句构成该类别的数据集合。
在上述步骤S106中,将划分后的词句按照各词句的所属分类分配到不同的多个数据集合中,再对各数据集合进行特征提取,将具有相同特征的多个数据集合构造成相应的数据模型,即第一数据模型,其中,构造数据模型的方法可以是预先设定的。
可选地,在数据集合中进行的特征提取方法,可以是提取多个数据集合的关键词,可以是选择多个数据的相同特性,还可以是提取多个数据集合中的实体数据摘要,从而可以根据上述的特征提取的方法,将具有相同特征的多个数据集合构造成相应的数据模型。
作为一个可选的实施例,第一数据模型可以是根据文档对应的行业所对应的模糊模型,该第一数据模型不能全面反映业务需求,为了获得更加准确的数据模型,则还需要对该第一数据模型进行修正。
可选地,可以按照业务规则一致性,以及业务流程完整性对第一数据模型进行修正,以便获得更加精准的文档对应的行业对应的数据模型即第二数据模型。
可选地,在对第一数据模型进行修正的过程,可以是多次的分步操作过程,服务器根据业务规则一致性,以及业务流程完整性与预定的修正规则进行多次匹配,再根据每次匹配到的修正规则,对第一数据模型进行修正。
可选地,服务器对应每一次的修正过程都进行可配置的历史记录,以便于对不同迭代结果进行量化分析。
其中,迭代是重复反馈过程的活动,其目的通常是为了逼近所需目标或结果,每一次对过程的重复称为一次“迭代”,而每一次迭代得到的结果会作为下一次迭代的初始值,在上述实施例中,每一次对第一数据模型进行的修正就是一次“迭代”。
其中,量化分析是将一些不具体,模糊的因素用具体的数据来表示,从而达到分析比较的目的,在上述实施例中,根据文档中的文本文字生成第一数据模型或第二数据模型的过程,就是对文档中的文字进行量化分析的过程。
可选地,服务器对完成的第二数据模型提供虚拟运行测试,判断模型中各数据的使用频率,峰值时间,服务器资源使用情况,以及供用户决策情况,可以通过虚拟运行测试判断第二数据模型是否准确。
在一个可选的实施例中,对第一数据模型进行修正后得到第二数据模型包括:获取预先配置的行业对应的最优数据模型;根据最优数据模型对第一数据模型进行修正得到第二数据模型。
具体地,对第一数据模型进行修正过程,即得到第二数据模型的过程,可以根据文档对应的行业,获取预先配置的行业对应的最优数据模型,使第一数据模型根据最优数据模型进行修正,得到第二数据模型。根据行业对应的最优数据模型对第一数据模型进行修正,可以使修正后的第二数据模型更加精确。
可选地,最优数据模型可以是将第一数据模型与预设主数据库内该行业对应的最佳模型进行对比得到比对优化模型。
可选的实施例,对第一数据模型进行修正后得到第二数据模型包括:将第一数据模型提供给用户;接收用户对第一数据模型的修改;将修改后的第一数据模型作为第二数据模型。
通过上述实施例,服务器将第一数据模型提供给用户,再接收经过用户修改后的第一数据模型,并将用户修改后的第一数据模型作为第二数据模型,可以使第一数据模型的修改能够更加符合用户的实际需求,即可以使第二数据模型能够满足用户的实际需求。
作为一个可选的实施例,通过导引将第一数据模型提供给用户,其中,导引用于指导用户对第一数据模型进行修改;通过导引接收用户对第一数据模型的修改。
需要说明的是,服务器在将第一数据模型提供给用户的过程中,可以包括将导引程序提供给用户,用户可以通过导引程序指导用户对第一数据模型进行修改,并通过该导引程序接收用户对第一模型的修改,即接收用户修改过后的第一模型。用户根据导引程序的指导,可以准确、快速地修改第一数据模型。
可选地实施例中,第一数据模型包括以下至少之一:数据使用用户集合、用户类型集合、至少一个实体集合、实体的属性集合、业务规则集合、实体所属主题集合、数据流程集合。第一数据模型通过多个不同类型的集合构建,可以使构建的第一数据模型更加准确丰富,可参考性强。
可选地,数据使用用户集合可以包括:第三方程序的集合。
可选地,用户类型集合可以包括:生产者集合,消费者集合,管理者集合,以及知晓者集合。
可选地,业务规则集合可以包括:跨主题业务规则集合,跨实体业务规则集合,跨属性业务规则集合。
在一个可选的实施例中,接收用户对第一数据模型的修改包括以下至少之一:第一数据模型中的集合的增加或减少、第一数据模型中的集合的内容的增加或减少。
具体地,服务器可以接收用户对第一数据模型的修改。用户对第一数据模型的修改,可以是对第一数据模型中的集合数量的增加或减少,还可以是对第一数据模型中的集合的内容增加或减少。在该实施例中,可以使用户通过改变第一数据模型内的数据容量,来修改第一数据模型。
可选地,在修改第一数据模型的过程中,可以让用户重新选择第一数据模型中的各类型集合,使用户根据自身的实际需求相应的选择各个类型集合,从而使修改后的第一数据更加符合用户需求。
可选地,在修改第一数据模型的过程中,可以让用户重新选择第一数据模型中的集合的内容,使用户根据自身的实际需求相应的选择各集合的内容,从而使修改后的第一数据更加符合用户需求。
可选地,在修改第一数据模型的过程中,可以让用户重新选择第一数据模型中的各类型集合和第一数据模型中的集合的内容来实现对第一数据模型的修改,可以使用户对第一数据模型的修改更加准确,灵活。
图2是根据本发明实施例的一种数据模型处理装置的示意图,如图2所示,该装置包括:获取单元21,用于获取文档中使用自然语言记录的文本文字;判断单元23,用于对文本文字进行分词以及语义判断,将文本文字分为多个词句;构造单元25,用于将多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,数据模型包括多个数据集合;建模单元27,用于至少根据多个数据集合得到第一数据模型;修正单元29,用于对第一数据模型进行修正后得到第二数据模型,其中,第二数据模型为文档对应的行业所对应的数据模型。
采用上述实施例,服务器通过获取单元,获取文档中使用自然语言记录的文本文字,再通过判断单元,进行分词处理和语义判断,将文档内的文本文字按照语义划分为多个词句,再将划分后的词句按照语义分类,通过构造单元,将不同类型的词句分配到不同的多个数据集合中,并通过建模单元,根据分配的多个数据集合构造数据模型,在构造数据模型的过程中,至少根据多个数据集合得到第一数据模型,再根据修正单元,对第一模型进行修正,得到文档对应的行业所对应的模型,即第二数据模型。该实施例,通过语义判断将文档中的自然文字划分成多个词句组成的数据集合,并根据该多个数据集合生成该文档对应的第一数据模型,以及对第一数据模型的修正,得到文档对应的行业所对应的第二数据模型,可以使构建的数据模型更加准确,解决了不能根据语义构建数据模型的技术问题。
在一个可选的实施例中,修正单元包括:获取模块,用于获取预先配置的行业对应的最优数据模型;修正模块,用于根据最优数据模型对第一数据模型进行修正得到第二数据模型。
具体地,对第一数据模型进行修正过程,即得到第二数据模型的过程,可以根据文档对应的行业,通过获取模块,获取预先配置的行业对应的最优数据模型,使第一数据模型根据最优数据模型,通过修正模块进行修正,得到第二数据模型。根据行业对应的最优数据模型对第一数据模型进行修正,可以使修正后的第二数据模型更加精确。
作为一种可选的实施例,修正单元包括:发送模块,用于将第一数据模型提供给用户;接收模块,用于接收用户对第一数据模型的修改;替换模块,用于将修改后的第一数据模型作为第二数据模型。
通过上述实施例,服务器通过发送模块,将第一数据模型提供给用户,再同故宫接收模块,接收经过用户修改后的第一数据模型,并通过替换模块,将用户修改后的第一数据模型作为第二数据模型。通过该实施例,可以使第一数据模型的修改能够更加符合用户的实际需求,即可以使第二数据模型能够满足用户的实际需求。
在一个可选的实施例中,导引发送模块,用于通过导引将第一数据模型提供给用户,其中,导引用于指导用户对第一数据模型进行修改;导引接收模块,用于通过导引接收用户对第一数据模型的修改。
需要说明的是,服务器在将第一数据模型提供给用户的过程中,可以导引发送模块,将导引程序提供给用户,用户可以通过该导引程序指导用户对第一数据模型进行修改,并通过该导引程序接收模块,接收用户对第一模型的修改,即接收用户修改过后的第一模型。用户根据导引程序的指导,可以准确、快速地修改第一数据模型。
在一个可选的实施例中,第一数据模型包括以下至少之一:数据使用用户集合、用户类型集合、至少一个实体集合、实体的属性集合、业务规则集合、实体所属主题集合、以及数据流程集合。
在一个可选的实施例中,包括以下至少之一:第一数据模型中的集合的增加或减少、第一数据模型中的集合的内容的增加或减少。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据模型处理方法,其特征在于,包括:
获取文档中使用自然语言记录的文本文字;
对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;
将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;
至少根据所述多个数据集合得到第一数据模型;
对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型。
2.根据权利要求1所述的方法,其特征在于,对所述第一数据模型进行修正后得到所述第二数据模型包括:
获取预先配置的所述行业对应的最优数据模型;
根据所述最优数据模型对所述第一数据模型进行修正得到所述第二数据模型。
3.根据权利要求1所述的方法,其特征在于,对所述第一数据模型进行修正后得到所述第二数据模型包括:
将所述第一数据模型提供给用户;
接收所述用户对所述第一数据模型的修改;
将修改后的所述第一数据模型作为所述第二数据模型。
4.根据权利要求3所述的方法,其特征在于,
通过导引将所述第一数据模型提供给用户,其中,所述导引用于指导所述用户对所述第一数据模型进行修改;
通过所述导引接收所述用户对所述第一数据模型的修改。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一数据模型包括以下至少之一:数据使用用户集合、用户类型集合、至少一个实体集合、实体的属性集合、业务规则集合、实体所属主题集合、以及数据流程集合。
6.根据权利要求5所述的方法,其特征在于,接收所述用户对所述第一数据模型的修改包括以下至少之一:所述第一数据模型中的集合的增加或减少、所述第一数据模型中的集合的内容的增加或减少。
7.一种数据模型处理装置,其特征在于,包括:
获取单元,用于获取文档中使用自然语言记录的文本文字;
判断单元,用于对所述文本文字进行分词以及语义判断,将所述文本文字分为多个词句;
构造单元,用于将所述多个词句根据类型的不同分配到不同的多个数据集合中以构造数据模型,其中,所述数据模型包括所述多个数据集合;
建模单元,用于至少根据所述多个数据集合得到第一数据模型;
修正单元,用于对所述第一数据模型进行修正后得到第二数据模型,其中,所述第二数据模型为所述文档对应的行业所对应的数据模型。
8.根据权利要求7所述的装置,其特征在于,所述修正单元包括:
获取模块,用于获取预先配置的所述行业对应的最优数据模型;
修正模块,用于根据所述最优数据模型对所述第一数据模型进行修正得到所述第二数据模型。
9.根据权利要求7所述的装置,其特征在于,所述修正单元包括:
发送模块,用于将所述第一数据模型提供给用户;
接收模块,用于接收所述用户对所述第一数据模型的修改;
替换模块,用于将修改后的所述第一数据模型作为所述第二数据模型。
10.根据权利要求9所述的装置,其特征在于,
导引发送模块,用于通过导引将所述第一数据模型提供给用户,其中,所述导引用于指导所述用户对所述第一数据模型进行修改;
导引接收模块,用于通过所述导引接收所述用户对所述第一数据模型的修改。
CN201611219684.XA 2016-12-26 2016-12-26 数据模型处理方法及装置 Pending CN106844336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611219684.XA CN106844336A (zh) 2016-12-26 2016-12-26 数据模型处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611219684.XA CN106844336A (zh) 2016-12-26 2016-12-26 数据模型处理方法及装置

Publications (1)

Publication Number Publication Date
CN106844336A true CN106844336A (zh) 2017-06-13

Family

ID=59135554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611219684.XA Pending CN106844336A (zh) 2016-12-26 2016-12-26 数据模型处理方法及装置

Country Status (1)

Country Link
CN (1) CN106844336A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及系统
CN104317867A (zh) * 2014-10-17 2015-01-28 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103473369A (zh) * 2013-09-27 2013-12-25 清华大学 基于语义的信息采集方法及系统
CN104317867A (zh) * 2014-10-17 2015-01-28 上海交通大学 对搜索引擎返回的网页图片进行实体聚类的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵妍 等: "基于CURE的用户聚类算法研究", 《计算机工程与应用》 *

Similar Documents

Publication Publication Date Title
CN108052583B (zh) 电商本体构建方法
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN104584005B (zh) 文档分类装置及文档分类方法
CN105243055B (zh) 基于多语言的分词方法和装置
CN107169572B (zh) 一种基于Mahout的机器学习服务组装方法
CN102576358A (zh) 单词对取得装置、单词对取得方法及其程序
CN106294783A (zh) 一种视频推荐方法及装置
US20090049020A1 (en) System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method
CN109726274A (zh) 问题生成方法、装置及存储介质
CN105912629A (zh) 一种智能问答方法及装置
CN110175585B (zh) 一种简答题自动批改系统及方法
CN105868311A (zh) 一种数据解析的方法和装置
CN106294466A (zh) 分类模型构建方法、分类模型构建设备和分类方法
CN110852095B (zh) 语句热点提取方法及系统
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN111061838B (zh) 文本特征关键词确定方法、装置和存储介质
CN107784024B (zh) 构建当事人画像的方法及装置
CN111914566A (zh) 一种评论自动生成方法
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
Gunawan et al. Building automatic customer complaints filtering application based on Twitter in Bahasa Indonesia
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN106844336A (zh) 数据模型处理方法及装置
CN106649255A (zh) 一种对短文本自动分类和识别主题词的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613

RJ01 Rejection of invention patent application after publication