CN105404660A - 多级数据存储方法及装置、多级数据结构、信息检索方法 - Google Patents
多级数据存储方法及装置、多级数据结构、信息检索方法 Download PDFInfo
- Publication number
- CN105404660A CN105404660A CN201510745016.XA CN201510745016A CN105404660A CN 105404660 A CN105404660 A CN 105404660A CN 201510745016 A CN201510745016 A CN 201510745016A CN 105404660 A CN105404660 A CN 105404660A
- Authority
- CN
- China
- Prior art keywords
- data
- label
- semantic content
- data label
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多级数据存储方法及装置、多级数据结构、信息检索方法。所述多级数据存储方法包括:采用单个数据分类结构存储相互关联的多级数据;所述方法包括:分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;判断是否对各数据标签记录语义内容;如果是,则对对应的数据标签记录语义内容。本发明存储方法形成的多级数据结构简单,数据标签具有了实际的语义,有利于提升信息检索的精度和效率。
Description
技术领域
本发明涉及数据存储技术,特别涉及一种多级数据存储方法及装置、多级数据结构、信息检索方法。
背景技术
知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
随着针对知识库的搜索引擎的应用,使得用户通过搜索引擎在知识库中准确而快速地检索到需要的信息。但是实际使用中,不同用户提出问题的角度不同或针对同一问题的问法不同,使得搜索引擎搜到的信息有限或者噪音较大,为了提高检索的效率和准确性,与知识库具有联系的词类库得以建立,词类库将某些同一种类或同一性质的词进行不同词级的管理和应用,进行搜索时,搜索引擎中输入的关键字与词类库中的词类名称进行匹配,快速而准确的判断知识库中是否存在相关信息。
但是现有技术建立的词类库的数据存储结构较为复杂,并且不能满足搜索的需求,信息检索的精度和效率有待提升。
发明内容
本发明解决的问题是怎样提高信息检索的精度和效率。
为解决上述问题,本发明提供一种多级数据存储方法,采用单个数据分类结构存储相互关联的多级数据;所述方法包括:
分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
判断是否对各数据标签记录语义内容;
如果是,则对对应的数据标签记录语义内容。
可选的,判断是否对各数据标签记录语义内容的过程包括:判断数据标签是否为底层数据标签,若该数据标签不是底层数据标签,则判断该数据标签是否为单独词,若该数据标签为单独词,则进行对该数据标签记录语义内容的步骤。
可选的,判断数据标签是否为单独词的过程包括:提供字典,所述字典中存储有若干单独词;将数据标签与字典进行匹配,若匹配,则该数据标签为单独词。
可选的,所述多级数据存储方法还包括:采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签。
可选的,所述语义内容与对应的数据标签存储的位置相同。
可选的,所述语义内容为表达对应的数据标签的语义的词语集合。
可选的,所述多级数据存储方法还包括:当需要添加具有新的数据标签的数据时,在所述数据分类结构中增加该数据的数据标签,并对需要记录语义内容的数据标签记录语义内容;更新所述数据对应的上下级数据的关联关系信息。
可选的,所述多级数据存储方法还包括:当需要删除一数据标签下的所有数据时,在所述数据分类结构中删除该数据的数据标签、语义内容及关联关系信息;更新所述数据对应的上下级数据的关联关系信息。
本发明实施例还提供了一种由上述多级数据存储方法形成词类库的方法,其中,所述数据标签是词类标签;所述关联关系信息中保存上下级词类名称之间的关系;语义内容是表达所述词类标签语义的词语集合。
本发明实施例还提供了一种信息检索方法,所述方法包括:
从接收到的服务请求中确定关键词;
在所述数据分类结构的语义内容及关联关系信息中检索所述关键词,以得到与所述关键词对应的标准问;
在服务数据库中查询与所述标准问匹配的服务内容。
本发明还提供了一种多级数据结构,包括:多级数据标签以及各数据标签对应的关联关系信息;至少部分数据标签的语义内容。
可选的,所述语义内容与对应的数据标签存在相同的位置。
可选的,具有语义内容的数据标签位于底层或者为单独词。
本发明还提供了一种多级数据存储装置,包括:
数据标签生成单元,用于分别生成各级数据的数据标签;
关联关系信息记录单元,用于记录各数据标签对应的关联关系信息,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
判断单元,用于判断是否对各数据标签记录语义内容;
语义内容记录单元,用于对需要记录语义内容的数据标签记录语义内容。
可选的,所述判断单元包括数据标签层级判断单元和单独词判断单元,所述数据标签层级判断单元用于判断数据标签是否为底层数据标签,所述单独词判断单元用于在数据标签不是底层数据标签时,判断该数据标签是否为单独词。
与现有技术相比,本发明的技术方案具有以下优点:
本发明的多级数据存储方法,采用单个数据分类结构存储相互关联的多级数据,在单个数据分类结构不仅生成数据标签以及记录数据的上下级关系关联关系信息,并且本发明的存储方法,除了对底层数据标签记录语义内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,改变了相互关联的多级数据的存储结构,使得存储结构相对简单,由于数据标签记录了语义内容提高信息检索的精度和效率;对底层数据标签之外的数据标签记录语义内容进行判断,提升了数据存储的选择性。此外,由于相互关联的所有数据信息都是记录在了一个数据结构中,此时的数据标签不会与其它的数据标签发生冲突,因此数据标签就具有了实际的语义。
进一步,采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签,在对多级数据进行搜索时,可以根据标记快速确定搜索范围,提高搜索的准确性。
本发明形成词类库的方法,除了对底层词类标签记录语义内容外,对底层词类标签之外的其他词类标签也可以记录语义内容,提高信息检索的精度和效率;对底层词类标签之外的词类标签记录语义内容进行判断,提升了数据存储的选择性。
本发明的多级数据结构,除了对底层数据标签记录语义内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,提高信息检索的精度和效率。
本发明的多级数据的存储装置,用于建立多级数据,并可以对数据标签记录语义内容。
本发明的信息检索方法,对采用上述多级数据存储方法存储的多级数据进行检索时,由于相关的多级数据都是放在一个多级数据结构中,因此只需对该多级数据结构进行检索即可,从而大大缩小了检索数据结构的数目,使得搜索过程更加简单,最终提高了检索的效率,提升了检索的准确度。
附图说明
图1为本发明一实施例多级数据存储方法的流程示意图;
图2为本发明一实施例多级数据存储方法形成的多级数据结构的示意图;
图3为本发明一实施例采用多级数据存储方法形成词类库的方法流程示意图;
图4为本发明一实施例词类库的结构示意图;
图5为本发明一实施例多级数据存储装置的结构示意图;
图6为本发明一实施例基于多级数据的信息检索方法的流程示意图。
具体实施方式
如背景技术所言,现有技术建立的词类库的数据存储结构较为复杂,且不能满足搜索的需求(比如存在某些关键字检索不到相关信息)。研究发现,词类库的结构为多级数据结构,如:包括父级词类分类、位于父级词类分类下的子级词类分类、位于子级词类分类下的孙级词类分类。在一具体例子中,一词类库包括:父级词类分类(/外企,表示数据标签),父级词类分类(/外企)下包括两个并列的子级词类分类(/外独资企业)和(/中外合资企业),子级词类分类(/外独资企业)下包括若干孙级词类分类(/日企)、(/德企),孙级词类分类就是底层数据,孙级词类分类(/日企)记录对应的语义内容:日企、日资企业,子级词类名称(/德企)记录对应的内容:德企、德资企业,子级词类分类(/中外合资企业)下包括若干孙级词类分类(/中日合资)、(/中美合资),孙级词类分类(/中日合资)记录对应的语义内容:中日合资、中日合资企业,孙级词类分类(/中美合资)记录对应的语义内容:中美合资、中美合资企业,在词类库结构中,孙级词类名称记录的对应内容具有实际的语义,父级词类分类、子级词类分类、孙级词类分类仅作为标签并不表示实际的语义,并且父级词类分类、子级词类分类和孙级词类分类的名称是不能重复的,在搜索引擎进行搜索时,只能对词类库中具有实际语义的内容进行识别,而如果用户如果采用“外企”、“外独资企业”或“中外合资企业”作为关键词进行搜索时,由于父级词类分类(/外企)、子级词类分类(/外独资企业)和(/中外合资企业)并不具有实际的语义,因而搜索不到相应的信息。为了解决该问题,需要对另外增加三个词类库结构,包括“外企”具有实际语义的一个词类库,“外独资企业”具有实际语义的一个词类库,以及“中外合资企业”具有实际语义的一个词类库,但是这种方式建立的词类库数据结构,由于需要重新增加三个词类库,形成四个并列的词类库,使得词类库的数据存储结构变得较为复杂,并且在进行搜索时,需要对四个词类库分别进行搜索,使得搜索的范围增大,效率降低。
本发明实施例提供了一种多级数据存储方法、采用单个数据分类结构存储相互关联的多级数据,在单个数据分类结构不仅生成数据标签以及记录数据的上下级关系关联关系信息,并且本发明的存储方法,除了对底层数据标签记录内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,改变了相互关联的多级数据的存储结构,使得存储结构相对简单,由于数据标签记录了语义内容提高信息检索的精度和效率;对底层数据标签之外的数据标签对是都记录语义内容进行判断,提升了数据存储的选择性。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参考图1,本发明一实施例提供了多级数据存储方法,包括步骤:
步骤S101,分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
步骤S102,判断是否对各数据标签记录语义内容;
步骤S103,如果是,则对对应的数据标签记录语义内容。
上述存储方法采用单个数据分类结构存储相互关联的多级数据,所述多级数据包含单个第一级数据,并且第一级数据不存在上级数据,底层数据不存在下级数据,对底层数据标签直接记录语义内容,不进行是否记录语义内容的判断。该存储方法使得相互关联的多级数据存储在单个数据分类结构中,存储结构较为简单,并且该存储方法形成的单个相互关联的多层数据在体现各层数据的关系的同时,除了对底层数据标签记录语义内容外,还可以对底层数据标签之外的其他数据标签记录对应的语义内容,提高了信息检索时的效率和精度。
下面对上述过程进行详细的说明。
进行步骤S101,分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系。
现有技术中所述数据标签仅作为一种标识,其不具有实际的语义。但是由于本发明中相互关联的所有数据信息都是记录在了一个数据结构中,此时的数据标签不会与其它的数据标签发生冲突,因此数据标签就具有了实际的语义。但是为了便于区分和识别,各级数据对应的数据标签是不同的。
由于本发明的数据结构只包含单个第一级数据,相应第一级的数据对应的数据标签为一个。
除第一级数据之外的其他级的数据标签数量可以为多个,各级的数据标签不同,且同一级中的数据标签也不同,便于后续记录相应的上下级数据之间的关系。
所述分别记录各数据标签对应的关联关系信息包括:对应各数据标签生成携带上级数据的数据标签和下级数据的数据标签的关联关系信息。
通过记录关联关系信息建立上下级数据的数据标签之间的联系。
需要说明的是,由于第一级数据不存在上级数据,第一级数据对应的关联关系信息只携带下一极的数据标签,同样,由于底层数据不存在下级数据,底层数据对应的关联关系信息只携带上一级的数据标签。
由于底层数据标签位于数据结构的叶子节点位置,因此在生成底层数据标签时,便会也记录底层数据标签的语义内容。
所述底层数据标签的语义内容与所述底层数据标签存储的位置相同。
在本发明的其他实施例中,当需要添加具有新的数据标签的数据时,在所述数据分类结构中增加该数据的数据标签,并对需要记录语义内容的数据标签记录语义内容;更新所述数据对应的上下级数据的关联关系信息。
当需要删除一数据标签下的所有数据时,在所述数据分类结构中删除该数据的数据标签、语义内容及关联关系信息;更新所述数据对应的上下级数据的关联关系信息。
进行步骤S102,判断是否对各数据标签记录语义内容;如果是,则进行步骤S103。
在一实施例中,判断是否对各数据标签记录语义内容的过程包括:提供字典,所述字典中存储有若干单独词;将数据标签与字典进行匹配,若匹配,则该数据标签为单独词,进行对对应的数据标签记录语义内容步骤。
判断是否对各数据标签记录语义内容的判断时可以先从第一级的数据标签进行判断,然后逐级对下一级的数据标签进行判断。
将数据标签与字典进行匹配的目的是判断该数据标签是否为单独词,若数据标签与字典里的某个单独词匹配,则该数据标签为单独词,则进行对该数据标签记录语义内容的步骤;反之,在不匹配时,字典里没有与数据标签匹配的单独词,则该数据标签不是单独词,对该数据标签不记录语义内容。
当随机对各数据标签是否记录语义内容进行判断时,在另一实施例中,判断是否对各数据标签记录语义内容的过程包括:判断数据标签是否为底层数据标签,若该数据标签不是底层数据标签,则判断该数据标签是否为单独词,若该数据标签为单独词,则进行对该数据标签记录语义内容的步骤。
判断数据标签是否为单独词的过程包括:提供字典,所述字典中存储有若干单独词;将数据标签与字典进行匹配,若匹配,则该数据标签为单独词。
可以根据数据标签对应的关联关系信息判断某个数据标签是否为底层数据标签。
在其他实施例中,也可以通过根据应用的需要人为判断是否对某一个数据标签进行记录语义内容的操作。
进行步骤S103,如果是,则对对应的数据标签记录语义内容。
所述语义内容为表达对应的数据标签的语义的词语集合。在一实施例中,所述语义内容可以为若干同义词或近义词。
通过对对应的数据标签记录语义内容,使得该数据标签具有实际的语义,在单个数据结构中即表达了数据标签的语义,使得数据存储结构简单。
本实施例中,所述语义内容与对应的数据标签存储的位置相同,使得数据标签具有实际语义的同时,数据存储结构较为简单。
在一实施例中,采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签。具体的,可以仅标记记录有语义内容的数据标签,也可以仅标记未记录有语义内容的数据标签,还可以采用不同标记标记两种不同的数据标签,因而,在进行搜索时,可以根据标记快速确定搜索范围,提高搜索的准确性。
上述多级数据的存储方法形成的多级数据结构,以单个数据分类结构存储相互关联的三级数据进行示例性说明,请参考图2,图2中示出了单个数据分类结构,该单个数据分类结构存储相互关联的三级数据,包括第一级数据、第二级数据和底层数据,第一级数据的数量为一个,所述第一级数据包括一个第一级数据标签,以及与第一级数据标签对应的语义内容和关联关系信息;第二级数据的数量为两个,每个第二级数据包括一个第二级数据标签,以及与该第二级数据标签分别对应的语义内容和关联关系信息;所述底层数据的数量为四个,每个底层数据包括一个底层数据标签,以及与底层数据标签对应的语义内容和关联关系信息。
需要说明的是,第一级数据标签、第二级数据标签、底层数据标签不相同,且同一层数据中的数据标签也不同。
需要进一步说明的是,图2中的单个数据分类结构仅作为示例,其他实施例中所述多级数据结构可以存储相互关联的多级(≥2级)数据,不应限制发明的保护范围。
本发明还提供了一种采用上述多级数据存储方法形成词类库的方法,请参考图3,包括步骤:
步骤S201,分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述数据标签为词类标签,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系,所述语义内容是表达所述词类标签语义的词语集合;
步骤S202,判断是否对各词类标签记录语义内容;
步骤S203,如果是,则对对应的词类标签记录语义内容。
下面对上述过程进行进一步说明。
进行步骤S201,分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,所述数据标签为词类标签,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系。
词类库中具有若干单个数据分类,本实施例中以建立词类库中的一个单个数据分类,并且该单个数据分类具有三级数据结构进行示例性说明。需要说明的是,多层数据的级数以及数据的具体内容不应限制本发明的保护范围。
本实施例中以建立跟关键词“外企”有关的词类库作为示例进行说明。所述分别生成各级数据的数据标签,所述数据标签为词类标签的过程包括:分别生成一个父级(或第一级)词类标签:外企,两个子级(或第二级)词类标签:外独资企业和中外合资企业,六个孙级(或底层)词类标签:日企、德企、美企、中日合资、中美合资、中非合资。所述父级(或第一级)词类标签的数量为一个,子级(或第二级)词类标签和孙级(或底层)词类标签的数量均大于1个。
所述孙级(或底层)词类标签为最小分类,所述子级(或第二级)词类标签为若干孙级(或底层)词类标签对应的大分类,所述父级(或第一级)词类标签为若干子级(或第二级)词类标签对应的大分类。
分别记录各词类标签对应的关联关系信息包括:对应各词类标签生成携带上级数据的词类标签和下级数据的词类标签的关联关系信息。具体的,记录父级词类标签“外企”对应的关联关系信息:/外企/外独资企业、中外合资企业,由于父级(或第一级)数据不存在上级数据,因而该关联关系信息中不记录上级词类标签,只记录并列的子级(或下级)词类标签“外独资企业”和“中外合资企业”;记录子级词类标签“外独资企业”对应的关联关系信息:外企/外独资企业/日企、德企、美企,该关联关系信息中记录父级(或上级)词类标签“外企”,以及并列的孙级(或下级)词类标签“日企”、“德企”和“美企”;记录子级词类标签“中外合资企业”对应的关联关系信息:外企/中外合资企业/中日合资、中美合资、中非合资,该关联关系信息中记录父级(或上一级)词类标签“外企”,以及并列的孙级(或下一级)词类标签“中日合资”、“中美合资”和“中非合资”;记录孙级词类标签“日企”对应的关联关系信息:外独资企业/日企,由于孙级(或底层)数据不存在下层数据,该关联关系信息只记录孙级(上一级)词类标签;记录孙级词类标签“德企”对应的关联关系信息:外独资企业/德企;记录孙级词类标签“美企”对应的关联关系信息:外独资企业/美企;记录孙级词类标签“中日合资”对应的关联关系信息:中外合资企业/中日合资;记录孙级词类标签“中美合资”对应的关联关系信息:中外合资企业/中美合资;记录孙级词类标签“中非合资”对应的关联关系信息:中外合资企业/中非合资。
进行步骤S202,判断是否对各词类标签记录语义内容。
在一实施例中,判断是否对各词类标签记录语义内容的过程包括:提供字典,所述字典中存储有若干单独词;将词类标签与字典进行匹配,若匹配,则该词类标签为单独词,则进行对对应的词类标签记录语义内容的步骤。
判断是否对各词类标签记录语义内容的判断时可以先从第一级的词类标签进行判断,然后逐级对下一级的词类标签进行判断。比如,本实施例中,先对父级词类分类进行判断,然后对子级词类分类进行判断。
词类标签与字典进行匹配的目的是判断该词类标签是否为单独词,若词类标签与字典里的某个关键词匹配,则该词类标签为单独词,则进行对该词类标签记录语义内容步骤;反之,在匹配时,字典里没有与词类标签匹配的关键词,则该词类标签不是单独词,对该词类标签不记录语义内容。
以判断对父级词类标签“外企”是否要记录语义内容作为示例,将父级词类标签“外企”与字典进行匹配,字典中存在于父级词类标签“外企”相匹配的单独词“外企”,则需要对父级词类标签“外企”记录语义内容。对子级词类标签是否要记录语义内容的判断与这类似。
当随机对各词类标签是否记录语义内容进行判断时,在另一实施例中,判断是否对各词类标签记录语义内容的过程包括:判断词类标签是否为底层词类标签,若该词类标签不是底层词类标签,则判断该词类标签是否为单独词,若该词类标签为单独词,则进行对该词类标签记录语义内容的步骤。
判断词类标签是否为单独词的过程包括:提供字典,所述字典中存储有若干单独词;将词类标签与字典进行匹配,若匹配,则该词类标签为单独词。
可以根据词类标签对应的关联关系信息判断某个词类标签是否为底层词类标签。
需要说明的是,本实施例中,由于孙级词类标签是最底层数据,无需进行是否进行记录语义内容的判断,直接对孙级词类标签记录语义内容。
在其他实施例中,也可以通过根据应用的需要人为判断是否对某一个词类标签进行记录语义内容的操作。
在一实施例中,采用不同方式标记记录有语义内容的词类标签以及未记录有语义内容的词类标签。具体的,可以仅标记记录有语义内容的词类标签,也可以仅标记未记录有语义内容的词类标签,还可以采用不同标记标记两种不同的语义,因而,在进行搜索时,可以根据标记快速确定搜索范围,提高搜索的准确性。
进行步骤S203,如果是,则对对应的词类标签记录语义内容。
所述语义内容为表达对应的数据标签的语义的词语集合。在一实施例中,所述语义内容可以为若干同义词或近义词。
具体的,记录父级词类标签“外企”对应的语义内容:外企、外资企业、外商投资企业;记录子级词类标签“外独资企业”对应的语义内容:外独资企业、外商独资企业;记录子级词类标签“中外合资企业”对应的语义内容:中外合资企业;记录孙级词类标签“日企”对应的语义内容:日企、日资企业;记录孙级词类标签“德企”对应的语义内容:德企、德资企业;记录孙级词类标签“美企”对应的语义内容:美企、美资企业;记录孙级词类标签“中日合资”对应的语义内容:中日合资、中日合资企业;记录孙级词类标签“中美合资”对应的语义内容:中美合资、中美合资企业;记录孙级词类标签“中非合资”对应的语义内容:中非合资、中非合资企业。
通过对对应的词类标签记录语义内容,使得该词类标签具有实际的语义,在单个词类库中即表达了词类标签的语义,使得词类库的数据存储结构简单。
本实施例中,所述语义内容与对应的词类标签存储的位置相同,使得词类标签具有实际语义的同时,词类库的数据存储结构较为简单。
上述方法形成的与“外企”相关的词类库结构,请参考图4,为了方便示意,图4中粗实线框及内容表示词类标签、带箭头实线表示词类标签之间的上下级关系、细实线框中内容表示对某一词类标签记录的语义内容,曲线表示语义内容针对记录的数据标签对象。其中,词类标签包括父级词类标签“外企”,子级词类标签“外独资企业”,子级词类标签“中外合资企业”,孙级词类标签“日企”,孙级词类标签“美企”,孙级词类标签“中日合资”,孙级词类标签“中美合资”,记录孙级词类标签“中非合资”;各语义内容包括:记录父级词类标签“外企”对应的语义内容:外企、外资企业、外商投资企业;记录子级词类标签“外独资企业”对应的语义内容:外独资企业、外商独资企业;记录子级词类标签“中外合资企业”对应的语义内容:中外合资企业;记录孙级词类标签“日企”对应的语义内容:日企、日资企业;记录孙级词类标签“德企”对应的语义内容:德企、德资企业;记录孙级词类标签“美企”对应的语义内容:美企、美资企业;记录孙级词类标签“中日合资”对应的语义内容:中日合资、中日合资企业;记录孙级词类标签“中美合资”对应的语义内容:中美合资、中美合资企业;记录孙级词类标签“中非合资”对应的语义内容:中非合资、中非合资企业。
本发明实施例还提供了一种多级数据结构,包括:多级数据标签以及各数据标签对应的关联关系信息;至少部分数据标签的语义内容。
其中,所述语义内容与对应的数据标签存在相同的位置。
其中,具有语义内容的数据标签位于底层或者为单独词。
本发明实施例还提供了一种多级数据存储装置,请参考图5,包括:
数据标签生成单元401,用于分别生成各级数据的数据标签;
关联关系信息记录单元402,用于记录各数据标签对应的关联关系信息,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
判断单元403,用于判断是否对各数据标签记录语义内容;
语义内容记录单元404,用于对需要记录语义内容的数据标签记录语义内容。
所述判断单元403包括数据标签层级判断单元和单独词判断单元,所述数据标签层级判断单元用于判断数据标签是否为底层数据标签,若该数据标签为底层数据标签,数据标签层级判断单元则向语义内容记录单元404发送语义记录指令,语义内容记录单元404在接收到语义记录指令时对该标签记录语义内容,若该数据标签不是底层数据标签,数据标签层级判断单元则向单独词判断单元发送单独词判断指令,所述单独词判断单元在接收到单独词判断指令时,判断该数据标签是否为单独词。
所述数据标签层级判断单元根据关联关系信息判断数据标签是否为底层数据标签。
所述单独词判断单元将数据标签与存储有若干单独词的字典进行匹配,若匹配,则判定该数据标签为单独词。
所述多级数据存储装置还可以包括:标记单元,用于采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签。
具体的,所述标记单元可以仅标记记录有语义内容的数据标签,也可以仅标记未记录有语义内容的数据标签,还可以采用不同标记标记两种不同的数据标签。
本实施例的多级数据存储装置除了对底层数据标签记录语义内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,改变了相互关联的多级数据的存储结构,使得存储结构相对简单,由于数据标签记录了语义内容提高信息检索的精度和效率;对底层数据标签之外的数据标签记录语义内容进行判断,提升了数据存储的选择性。此外,由于相互关联的所有数据信息都是记录在了一个数据结构中,此时的数据标签不会与其它的数据标签发生冲突,因此数据标签就具有了实际的语义。
本发明实施例还提供了一种信息检索方法,用于检索采用上述多级数据的存储方法存储的多级数据;请参考图6,所述方法包括步骤:
步骤S301,从接收到的服务请求中确定关键词;
步骤S302,在所述数据分类结构的语义内容及关联关系信息中检索所述关键词,以得到与所述关键词对应的标准问;
步骤S303,在服务数据库中查询与所述标准问匹配的服务内容。
对上述多级数据的存储方法形成的单个数据分类结构进行检索时,由于单个数据分类结构中各级数据标签可以记录语义内容,即使得该数据标签具有了实际的语义,因而进行检索时只需要对一个数据分类结构进行检索,使得检索的范围减小,提高了检索的效率。
以对本发明的方法形成的前述“外企”词类库进行检索作为示例,由于“外企”词类库的父级词类标签“外企”记录有对应的语义内容:外企、外资企业、外商投资企业。服务请求中确定要检索“外企”这个关键词;在“外企”词类库中查找到与关键词“外企”对应的语义内容:外企、外资企业、外商投资企业;在服务数据库中查询与所述该语义内容匹配的服务内容。
进一步地,当采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签时,还可以根据检索的具体需求,确定不同的检索范围,从而可以进一步缩小检索范围,提高检索的效率。
综上,本发明实施例的多级数据存储方法,采用单个数据分类结构存储相互关联的多级数据结构,在单个数据分类结构不仅生成数据标签以及记录数据的上下级关系关联关系信息,并且本发明的存储方法,除了对底层数据标签记录内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,改变了相互关联的多级数据的存储结构,使得存储结构相对简单,由于数据标签记录了语义内容提高信息检索的精度和效率;对底层数据标签之外的数据标签对是都记录语义内容进行判断,提升了数据存储的选择性。
本发明实施例的形成词类库的方法,除了对底层词类标签记录内容外,对底层词类标签之外的其他词类标签也可以记录语义内容,提高信息检索的精度和效率;对底层词类标签之外的词类标签对是都记录语义内容进行判断,提升了数据存储的选择性。
本发明实施例的多级数据,除了对底层数据标签记录内容外,对底层数据标签之外的其他数据标签也可以记录语义内容,提高信息检索的精度和效率。
本发明实施例的多级数据的存储装置,用于建立多级数据,并可以对数据标签记录语义内容。
本发明实施例的信息检索方法,对采用上述多级数据存储方法存储的多级数据进行检索时,由于相关的多级数据都是放在一个多级数据结构中,因此只需对该多级数据结构进行检索即可,从而大大缩小了检索数据结构的数目,使得搜索过程更加简单,最终提高了检索的效率,提升了检索的准确度。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (15)
1.一种多级数据存储方法,其特征在于,采用单个数据分类结构存储相互关联的多级数据;所述方法包括:
分别生成各级数据的数据标签及分别记录各数据标签对应的关联关系信息,并记录底层数据标签的语义内容,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
判断是否对各数据标签记录语义内容;
如果是,则对对应的数据标签记录语义内容。
2.如权利要求1所述多级数据存储方法,其特征在于,判断是否对各数据标签记录语义内容的过程包括:判断数据标签是否为底层数据标签,若该数据标签不是底层数据标签,则判断该数据标签是否为单独词,若该数据标签为单独词,则进行对该数据标签记录语义内容的步骤。
3.如权利要求2所述多级数据存储方法,其特征在于,判断数据标签是否为单独词的过程包括:提供字典,所述字典中存储有若干单独词;将数据标签与字典进行匹配,若匹配,则该数据标签为单独词。
4.如权利要求1所述多级数据存储方法,其特征在于,还包括:采用不同方式标记记录有语义内容的数据标签以及未记录有语义内容的数据标签。
5.如权利要求1所述多级数据存储方法,其特征在于,所述语义内容与对应的数据标签存储的位置相同。
6.如权利要求1所述多级数据存储方法,其特征在于,所述语义内容为表达对应的数据标签的语义的词语集合。
7.如权利要求1所述多级数据存储方法,其特征在于,还包括:当需要添加具有新的数据标签的数据时,在所述数据分类结构中增加该数据的数据标签,并对需要记录语义内容的数据标签记录语义内容;更新所述数据对应的上下级数据的关联关系信息。
8.如权利要求1所述多级数据存储方法,其特征在于,还包括:当需要删除一数据标签下的所有数据时,在所述数据分类结构中删除该数据的数据标签、语义内容及关联关系信息;更新所述数据对应的上下级数据的关联关系信息。
9.由权利要求1至8任一项所述的多级数据存储方法形成词类库的方法,其特征在于,所述数据标签是词类标签;所述关联关系信息中保存上下级词类名称之间的关系;语义内容是表达所述词类标签语义的词语集合。
10.一种信息检索方法,用于检索采用如权利要求1至8任一项所述的多级数据存储方法存储的多级数据;其特征在于,所述方法包括:
从接收到的服务请求中确定关键词;
在所述数据分类结构的语义内容及关联关系信息中检索所述关键词,以得到与所述关键词对应的标准问;
在服务数据库中查询与所述标准问匹配的服务内容。
11.一种多级数据结构,其特征在于,包括:
多级数据标签以及各数据标签对应的关联关系信息;
至少部分数据标签的语义内容。
12.如权利要求11所述的多级数据结构,其特征在于,所述语义内容与对应的数据标签存在相同的位置。
13.如权利要求11所述的多级数据结构,其特征在于,具有语义内容的数据标签位于底层或者为单独词。
14.一种多级数据存储装置,其特征在于,包括:
数据标签生成单元,用于分别生成各级数据的数据标签;
关联关系信息记录单元,用于记录各数据标签对应的关联关系信息,所述关联关系信息用于保存该数据及其所对应的上下级数据之间的关系;
判断单元,用于判断是否对各数据标签记录语义内容;
语义内容记录单元,用于对需要记录语义内容的数据标签记录语义内容。
15.如权利要求14所述多级数据存储装置,其特征在于,所述判断单元包括数据标签层级判断单元和单独词判断单元,所述数据标签层级判断单元用于判断数据标签是否为底层数据标签,所述单独词判断单元用于在数据标签不是底层数据标签时,判断该数据标签是否为单独词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510745016.XA CN105404660A (zh) | 2015-11-05 | 2015-11-05 | 多级数据存储方法及装置、多级数据结构、信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510745016.XA CN105404660A (zh) | 2015-11-05 | 2015-11-05 | 多级数据存储方法及装置、多级数据结构、信息检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105404660A true CN105404660A (zh) | 2016-03-16 |
Family
ID=55470150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510745016.XA Pending CN105404660A (zh) | 2015-11-05 | 2015-11-05 | 多级数据存储方法及装置、多级数据结构、信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105404660A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893572A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种目标数据输出方法、装置及系统 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN108287832A (zh) * | 2017-01-09 | 2018-07-17 | 上海掌门科技有限公司 | 插入标签的方法和装置 |
CN109241204A (zh) * | 2018-09-28 | 2019-01-18 | 深圳市元征科技股份有限公司 | 一种odx标签类管理方法、系统及电子设备和存储介质 |
CN109522369A (zh) * | 2018-10-12 | 2019-03-26 | 金蝶软件(中国)有限公司 | 数据的搜索方法、装置、计算机设备和存储介质 |
CN110516061A (zh) * | 2019-07-24 | 2019-11-29 | 视联动力信息技术股份有限公司 | 一种数据处理方法、装置和计算机可读存储介质 |
CN110990397A (zh) * | 2019-11-01 | 2020-04-10 | 东方微银科技(北京)有限公司 | 一种征信数据提取方法及设备 |
CN111090656A (zh) * | 2020-03-23 | 2020-05-01 | 北京大数元科技发展有限公司 | 一种动态构建对象画像的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101261690A (zh) * | 2008-04-18 | 2008-09-10 | 北京百问百答网络技术有限公司 | 一种问题自动生成的系统及其方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
US8719005B1 (en) * | 2006-02-10 | 2014-05-06 | Rusty Shawn Lee | Method and apparatus for using directed reasoning to respond to natural language queries |
CN104615724A (zh) * | 2015-02-06 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 知识库的建立以及基于知识库的信息搜索方法和装置 |
-
2015
- 2015-11-05 CN CN201510745016.XA patent/CN105404660A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719005B1 (en) * | 2006-02-10 | 2014-05-06 | Rusty Shawn Lee | Method and apparatus for using directed reasoning to respond to natural language queries |
CN101261690A (zh) * | 2008-04-18 | 2008-09-10 | 北京百问百答网络技术有限公司 | 一种问题自动生成的系统及其方法 |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN104615724A (zh) * | 2015-02-06 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 知识库的建立以及基于知识库的信息搜索方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893572A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种目标数据输出方法、装置及系统 |
CN105893551A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN105893551B (zh) * | 2016-03-31 | 2019-03-05 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN108287832A (zh) * | 2017-01-09 | 2018-07-17 | 上海掌门科技有限公司 | 插入标签的方法和装置 |
CN109241204A (zh) * | 2018-09-28 | 2019-01-18 | 深圳市元征科技股份有限公司 | 一种odx标签类管理方法、系统及电子设备和存储介质 |
CN109522369A (zh) * | 2018-10-12 | 2019-03-26 | 金蝶软件(中国)有限公司 | 数据的搜索方法、装置、计算机设备和存储介质 |
CN109522369B (zh) * | 2018-10-12 | 2020-10-23 | 金蝶软件(中国)有限公司 | 数据的搜索方法、装置、计算机设备和存储介质 |
CN110516061A (zh) * | 2019-07-24 | 2019-11-29 | 视联动力信息技术股份有限公司 | 一种数据处理方法、装置和计算机可读存储介质 |
CN110990397A (zh) * | 2019-11-01 | 2020-04-10 | 东方微银科技(北京)有限公司 | 一种征信数据提取方法及设备 |
CN111090656A (zh) * | 2020-03-23 | 2020-05-01 | 北京大数元科技发展有限公司 | 一种动态构建对象画像的方法及系统 |
CN111090656B (zh) * | 2020-03-23 | 2020-07-17 | 北京大数元科技发展有限公司 | 一种动态构建对象画像的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105404660A (zh) | 多级数据存储方法及装置、多级数据结构、信息检索方法 | |
US9235638B2 (en) | Document retrieval using internal dictionary-hierarchies to adjust per-subject match results | |
CN102930060B (zh) | 一种数据库快速索引的方法及装置 | |
CN103020204B (zh) | 一种对分布式顺序表进行多维区间查询的方法及其系统 | |
CN105574093B (zh) | 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法 | |
CN100458779C (zh) | 扩展索引的方法 | |
US7257574B2 (en) | Navigational learning in a structured transaction processing system | |
CN107491487B (zh) | 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质 | |
US20150310073A1 (en) | Finding patterns in a knowledge base to compose table answers | |
CN104021161A (zh) | 一种聚簇存储方法及装置 | |
US20090112843A1 (en) | System and method for providing differentiated service levels for search index | |
WO2013152678A1 (zh) | 元数据查询方法和装置 | |
US8396889B2 (en) | Methods for semantics-based citation-pairing information | |
CN104268298B (zh) | 一种创建数据库索引及其查询的方法 | |
CN102541875A (zh) | 有向无环图的关系型节点数据的存取方法、装置及系统 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN110109910A (zh) | 数据处理方法及系统、电子设备和计算机可读存储介质 | |
US20150234915A1 (en) | Clustering web pages on a search engine results page | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
US20100030761A1 (en) | Method of retrieving and refining information based on tri-gram | |
CN104424219A (zh) | 一种数据文件的管理方法及装置 | |
CN103473324A (zh) | 基于非结构化数据存储的多维业务属性检索装置及方法 | |
CN115422155A (zh) | 一种数据湖元数据模型的建模方法 | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 | |
CN109408539B (zh) | 数据操作方法、装置、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160316 |