CN103329124A - 用于为现有数字样本编译唯一的样本代码的方法和系统 - Google Patents
用于为现有数字样本编译唯一的样本代码的方法和系统 Download PDFInfo
- Publication number
- CN103329124A CN103329124A CN2010800709111A CN201080070911A CN103329124A CN 103329124 A CN103329124 A CN 103329124A CN 2010800709111 A CN2010800709111 A CN 2010800709111A CN 201080070911 A CN201080070911 A CN 201080070911A CN 103329124 A CN103329124 A CN 103329124A
- Authority
- CN
- China
- Prior art keywords
- sample
- code
- keyword
- numeral
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/30—Managing network names, e.g. use of aliases or nicknames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
- G11B20/00166—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised contents recorded on or reproduced from a record carrier, e.g. music or software
- G11B20/00181—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised contents recorded on or reproduced from a record carrier, e.g. music or software using a content identifier, e.g. an international standard recording code [ISRC] or a digital object identifier [DOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Storage Device Security (AREA)
Abstract
一种用于提供具有唯一的样本代码的数字样本的方法。一种具有计算机可执行指令和用于访问数字样本的所编译的样本代码的计算机可读介质,包括代码如条形码或其他视觉上可感知的射频识别(RFID)码的物理实施方式。一种用于编译唯一的样本代码的系统。
Description
技术领域
本发明涉及一种用于为现有数字样本编译全世界唯一的样本代码的方法。本发明还涉及一种用于提供具有这样的唯一的样本代码的数字样本的方法。此外,本发明涉及一种具有计算机可执行指令的计算机可读介质,该计算机可执行指令在被加载到计算机系统上时向该计算机系统提供前面所提到的方法中的任何方法的功能。另外,本发明还涉及如用上面的方法编译的样本代码。此外,本发明涉及一种用于使用上面的方法为现有数字样本编译唯一的样本代码的系统。
背景技术
通常,“全球化”用作描述生产、通信和技术在世界各地的传播和连通性的简写方式。这种传播已经涉及经济和文化活动的交织。世界各地的经济和文化生活的连通性意义上的这种全球化已经增长了几百年。然而,很多人认为当前形势具有与以前根本不同的秩序。通信和交换的速度、所涉及的网络的复杂度和大小、以及庞大数量的贸易、交易、互动和风险促使我们现将特有的力量称为“全球化”。已经有人将全球化描述为以如下方式连接遥远的地点的全世界社会关系的强化:该方式使得本地事件受远在很多英里之外发生的事件的影响以及本地事件影响远在很多英里之外发生的事件。这涉及我们理解地理和阅历局部性的方式的变化。这在提供机会的同时,又带来了相当大的与如市场营销、技术变化、气候变化和业务控制等关联的风险。
从而,全球化具有强大的经济、政治、文化和社会因素。生命科学以及数字技术等的发展已经为生产、沟通和贸易开辟了广阔的新的可能性。类似互联网的创新已经使得能够访问世界各地的信息和资源以及实时地协调活动。然而,全球化的主要不利之处在于创建了散布的市场,在散布的市场中越来越难以控制产品市场营销以及需求和供应链/网处理,导致使用对等网络(P2P)技术可得到的无法控制的数量的非法拷贝的相当大的增加。与商业盗版不同的终端用户盗版更加难以控制。这些P2P技术 的附属缺点在于,互联网流量已经大大增加。预测显示,互联网流量将大大增加,导致对数据传输和存储的压力,并且产生对世界的互联网网络的增加的带宽需求。此外,互联网传输和存储增加将需要改进的硬件、软件和数据设施,而不管它们的背景。目前,互联网的电能消耗已经很大并且预计在未来几年内会显著增加。
未预先公开的国际专利申请PCT/NL2010/050303公开了一种方法和系统,该方法和系统便利于跟踪和追踪合法的数码产品,以保护所有者以及产品需求和供应链中涉及的其他参与者不受知识产权的侵害以及通过共享数字产品来保护所有者和消费者两者不受欺诈性的销售的侵害。为此,该国际专利申请公开了一种用于为数字样本编译唯一的样本代码的方法,包括:ⅰ)定义至少一个样本代码模板,该至少一个样本代码模板包括待用于为数字样本建立样本代码的多个样本代码段,所述样本代码段至少包括:样本所有者识别代码段和样本识别代码段;ⅱ)指定待用于建立所述样本代码的样本代码段的内容,其中,样本所有者识别代码段通过数字样本的所有者的互联网地址——具体地是IP地址和/或域名(的一部分)——来指定,ⅲ)串接(string)所指定的样本代码段以形成样本代码,ⅳ)定义可以获得对数字样本的访问的到数字位置的数字路径,以及ⅴ)创建在步骤ⅲ)期间生成的样本代码与在步骤ⅳ)期间定义的数字路径之间的交叉引用,以防样本代码与数字路径相互有区别。通过使用全世界唯一的样本代码作为与样本的DNA图谱或指纹可比较的全世界唯一的标识符标记每个全世界唯一的数字样本,可以追踪一个具体的数字样本并且容易且明确地将其与另一数字样本相区分,从而可以在整个世界范围内识别每个数字样本而不管其背景。通过数字样本的(现在或以前的)所有者的IP地址和/或域名的可辨别的(可识别的)合并可以便利于全世界唯一的识别。此外,由于数字样本代码与到存储并且可以追踪/查找数字样本和与所述数字样本有关的最终另外的信息(元数据)的数字位置的数字路径相关联,所以可以相对容易地验证数字样本是否已经被操纵或是否是真实的。这将大大便利于对数字样本的真实性的评定,因此将便利于对数字样本的跟踪和追踪。通常,数字样本一旦存储在数字位置将不会被移动。如果数字样本仍将被移动到另一数字或物理位置,则可以相应地更新样本代码与数字路径之间的交叉引用,因此,样本代码将永远是最新的并且给出了对数字样本的永久访问。因此,可以以这种方式消除由于到存储数字样本的数字位置的数字路径的变化而导致的死链接。
发明内容
本发明的目的是对前面所提到的用于为现有网络环境中的数字样本编译唯一的样本代码的方法的实现进行改进。
为此,本发明的一种实施方式涉及一种用于为数字样本编译唯一的样本代码的方法,包括:A)定义至少一个样本代码模板,该至少一个样本代码模板包括待用于为数字样本建立样本代码的多个样本代码段,所述样本代码段至少包括:样本所有者识别代码段、样本识别代码段、以及至少一个关键词包括代码段;B)指定用于对数字网络进行样本搜索的至少一个搜索准则,C)查找满足所述至少一个搜索准则的、到至少一个数字样本在所述数字网络中的存储位置的数字路径,D)指定待用于建立至少一个样本代码的样本代码段的内容,其中,样本所有者识别代码段通过数字样本的所有者的互联网地址——具体地是IP地址和/或域名——来指定,E)串接所指定的样本代码段以形成样本代码,以及F)创建在步骤E)期间生成的所述样本代码与在步骤C)期间查找到的所述数字路径之间的交叉引用,以防样本代码与数字路径相互有区别。通过在现有网络环境如互联网环境或内联网环境中搜索或抓取(crawl)满足一个或更多个预先定义的搜索准则的数字样本,并且通过基于所获得的搜索结果指定代码段或至少指定至少一个关键词包括代码段,可以以相对高效的方式用全世界唯一的样本代码对现有数字样本——具体地是现有文件——进行编码。以这种方式,在已经定义了样本代码模板以及一个或更多个搜索准则之后,可以以简单且快速的方式同时对大量的数字样本进行编码。可以将人为干扰保持到最小,这有利于根据本发明的方法的用户友好性。数字样本可以包括项目,如书、合同、音乐文件、视频文件、网页、网页内容、互联网索引文件、或任何其他数字项目。在编译样本代码以及将样本代码连接至数字样本之后,通常,通过标记数字样本,可以使用根据本发明的实施方式编译的所述唯一的样本代码来识别和访问数字样本。从而,例如,在想要正确地识别或共享这样的数字样本(如,文档或文件或其他数字样本)时,本文中所描述的各种实施方式中的代码和代码的使用可以是有帮助的。代码还可以有助于追踪和确保数字样本的真实性,限制或提供对数字样本的访问,向所选择的收件人分发数字样本,出售或套现数字样本,或帮助提供数字样本的分发或访问。作为示例,可以为音乐文件提供唯一的样本代码。向用户提供对音乐文件的访问,并且基于样本代码来识别音乐文件。此外,可以将样本代码嵌入到音乐文件中以便利于跟踪和追踪音乐文件。
数字样本——也被认为是单个单独的数字实体——从而被定义成具有唯一的身份并且肯定与其指定准则的范围内的所有其他数字样本是可区分的(可个别化的)以及因此是可跟踪和可追踪的。因此,作为单独的实体的数字样本不同于数字产品系列、数字产品类别、或数字产品种类。在本专利申请的背景下,术语“数字样本”的性质和表示应当在广义上来理解并且可以包括数字文件、数字文本描述、数字图像、多个数字样本的数字集合、数字交易、或数字服务。假设可以从在样本代码本身中使用的和可视化的所有者的IP地址和/或域名中推导出数字样本的实际的或先前的所有权,则术语“所有者”合并了(尤其是)始发者、出版商、分发者、作者、以及创作者。术语“数字位置”可以是作为代码发行方的所有者的计算机处的位置,但是它也可以是利用基于互联网的计算的专用或公共云计算基础设施中的远程位置,由此,共享的资源、软件和信息根据需要被提供给计算机和其他装置,如公用事业设施。可以将样本代码存储在计算云中,而将数字样本存储在与计算云分离的位置,这将减少云内的通信负担并且出于安全原因也将是有利的。关键词包括代码段中的术语“关键词”涉及与(待)编码的数字样本有关的关键词并且在广义上来理解。关键词不一定必须是字母的,也可以是例如数字或字母数字格式。正如已经指出的,用这样的唯一的样本代码对数字样本进行编码的目的在于,用户通常可以直接识别出提供关于具体的数字样本的用户信息(元数据)的代码段的内容。
使用全世界唯一的样本代码标记每个唯一的数字文件。该样本代码可以表示数字样本的文件名和/或可以被嵌入到数字样本中。可以通过像这样简单地共享样本代码来实现对数字样本的共享,这将提供到存储数字样本的位置的导引。由于简单地共享样本代码(例如,大约1千字节)将足以使得能够对数字样本(通常显著大于1千字节)进行授权共享,同样地,交换数字样本不再必要,所以,这可以有助于产生互联网通信的显著减少以及从金融的、安全相关的和环境的观点来看有利的(多个)数据存储引导。样本所有者识别代码段通常由所有者来(预先)指定,而样本识别代码段可以由数字样本的创建者或用户来指定。
可以想到,在步骤C)之前至少部分地执行步骤D),其中,在查找到至少一个数字样本的数字路径之前,指定至少一个样本代码段。更具体地,在根据本发明的方法的一种实施方式中,在根据步骤C)查找到至少一个数字样本的数字路径之前,根据步骤D)指定至少一个关键词包括代码段。在搜索网络之前指定关键词包括代码段可以通过给所述代码段手动 地分配关键词来完成。(待)合并在关键词包括代码段中的预先定义的关键词可以用作用于执行样本搜索的搜索准则。因此,关键词包括代码段与一个或更多个搜索准则之间可以存在重叠。这样的重叠的示例,当必须通过(手动地)预先定义艺术家名称如“甲壳虫(Beatles)”来在网络环境中对音乐样本进行编码时,可以随后将艺术家名称用作搜索准则以对存储在所述环境中的音乐样本进行过滤。
在根据本发明的方法的另一实施方式中,在根据步骤C)查找到至少一个数字样本的数字路径之后,根据步骤D)指定至少一个关键词包括代码段。待合并到至少一个关键词包括代码段中的一个或更多个关键词优选地基于所获得的搜索结果,并且更优选地基于在搜索期间查找到的数字路径。通往数字样本的数字路径的一部分可以被合并为至少一个关键词包括代码段的至少一部分。样本代码可以被生成为使得数字路径或数字路径的至少一部分被合并在样本代码中并且可以由用户来识别。
用于进行搜索操作的一个或更多个搜索准则可以不同。在一种实施方式中,至少一个搜索准则包括待搜索的文件夹(目录)的定义。以这种方式,可以搜索网络环境的限定部分。此外,可以想象,至少一个搜索准则包括待搜索的样本类型——具体地是文件类型——的定义。以这种方式,例如,可以应用扩展名过滤器,其中,仅可以搜索具有特定的(预先定义的)扩展名如doc、docx、htm、html、ps、pdf、ppt、pptx、bmp、gif、jpg、jpeg等的文件。至少一个搜索准则也可以包括与待搜索的数字样本相关的日期范围。所应用的日期可以是如数字样本的创建日期或打开数字样本的最新日期。除了上面所确定的搜索准则之外,也可以应用其他搜索准则以及搜索准则的组合。
除了识别存储数字样本的数字路径和数字样本的(文件)名称之外,也可以筛选和搜索数字样本的内容。更具体地,在根据本发明的方法的一种实施方式中,在步骤C)期间搜索满足所定义的至少一个搜索准则的至少一个数字样本的内容,并且其中,存在于所查找到的数字样本中的至少一个关键词、短语、类别、和/或用户定义的代码用于在步骤D)期间指定至少一个关键词包括代码段。限制待搜索的内容是可想象的,其中,可以将内容限制为如搜索数字样本的标题、题目、摘要、正文文本、和/或元数据。在另一实施方式中,在步骤C)期间搜索至少一个数字样本的内容,随后生成在数字样本中查找到的关键词、短语、类别、和/或用户定义的代码的索引,并且基于所述索引指定至少一个关键词包括代码段。可 以应用关键词(或其他项目)的可以基于点击数量(频率)的层次顺序。可以通过使用排除列表来忽略具体的预先定义的常用关键词、短语、类别、和/或用户定义的代码。优选地,在搜索结果的索引的生成期间,忽略所排除的关键词(或其他项目)。
为了减少在数字样本中所查找到的应当成为代码模板段的名称的不同的关键词、短语、类别、和/或用户定义的代码的数量,可以有利的是,将多个相关的关键词、短语、类别、和/或用户定义的代码聚类成子集,并且随后生成子集的聚类索引,然后基于所述聚类索引指定至少一个关键词包括代码段。例如,如果在搜索过程中查找到关键词“密封*”、“焊接*”、以及“胶水”,则将这些术语聚类成用聚类标记“生产”标记的子集。字符“*”表示作为关键词的通常截断的星号。可以在搜索结果的分析之后手动添加该聚类术语,虽然其也可以用已知的语义分析技术如传统的分类法生成技术自动执行。
对样本代码段选择性地排序,以建立可以查找到数字样本的直接或间接地涉及数字位置——具体地是网页位置——的识别路径。数字路径通常可以用可以由网页浏览器(自动地)设置前缀如http、https、ftp、ftps、mailto、file的(缩写的)统一资源定位符(URL)的格式来表示。在本发明的一种实施方式中,数字路径的至少一部分与样本代码相同,表示样本代码被合并在数字路径中。如果样本代码和数字路径基本上相同,则可以省略按照步骤G)创建交叉引用。在这个方面,术语“基本上相同”用于表示样本代码与数字路径之间可以存在在实践中没有任何影响的微小差异。例如,虽然数字路径通常可以具有前缀,如“http://”,然而,这样的前缀可以不出现在可视化的样本代码本身中。然而,由于任何网页浏览器会在尚未具有这样的前缀的网址前面自动添加前缀,所以同样可以很容易地将样本代码用作引导至存储所请求的数字样本的网页位置(数字位置)的网页地址(数字路径)。
在本发明的一种实施方式中,该方法包括步骤G),步骤G)包括将样本代码、数字路径、以及样本代码与数字路径之间的交叉引用存储在数据库中。存储作为样本代码与数字路径之间的链接的交叉引用将便利于将样本代码变换成可以查找到数字样本的数字路径。此外,存储该数据将便利于在数字路径改变的情况下更新交叉引用,以防止样本代码相对于存储并且可以跟踪和查找到数字样本的实际位置的断开链接(死链接)。
可选地,该方法包括步骤H),步骤H)包括将在步骤C)期间所生 成的样本代码转换成机器可读的格式。如果样本代码被打印或显示在屏幕上,则可以通过例如使用光学扫描器来读出样本代码。通过应用光学字符辨别,可以将扫描的样本代码转换成与样本代码的样本串相同的字符集,该字符集随后可以被自动或手动地输入到网页浏览器中。机器可读的样本代码也可以用数字或物理加密的图解格式或技术如2D/3D条形码、统一资源标识符(URI)如统一资源定位符(URL)、和/或RFID标签来表示。应该注意,尽管这些图解表示看起来类似于传统的图解和技术表示,然而,样本代码的图解表示的内容、意义、以及用途与已知的样本系列和/或类别代码的传统的图解表示完全不同。
可替代地,该方法包括步骤I),步骤I)包括将样本代码的至少样本识别代码段变换成另一语言并且匹配字符或字符集。由于样本识别代码段优选地包括与和样本代码相关联的数字样本有关的、提供关于数字样本的相关可识别信息的元数据,所以,用发布该数字样本代码的地区/国家的语言和字符来提供和显示这些数据元将是用户友好的。在至少一个样本识别代码段中合并和命名的可能的数据元的示例为与数字样本的作者、标题、主题、关键词、大小、版本、创建日期、注释、和/或状态有关的信息。
合并在所有者识别代码段中的所有者的IP地址和/或域名通常在步骤I)期间没有被变换并且保持不变。
在本发明的一种实施方式中,在步骤A)期间所定义的样本代码段还包括可以为静态或动态(依赖于随时间变化的一个或更多个参数)的用户相关的代码段。虽然,不考虑用户相关的代码段的存在,每个样本代码已经用作全世界唯一的个人代码,然而,通过合并用户相关的代码段所提供的一个优点在于,可以使得存储在数字位置的内容对用户来说是更加私人的。如果商定,则可以显示客户的个人信息如客户编号、笔名和/或个人权限(例如,读/写权限)作为数字位置处的内容和/或作为合并到用户相关的代码段中的元数据。该用户信息可以是静态的,因此产生静态的用户相关的代码段。也可以想象,用户相关的段合并随时间变化的用户相关的信息(元数据),如用户的年龄或用户信用。一旦发布,则样本代码将不会改变,但发布的样本代码可以依赖于在发布样本代码的时刻可适用的参数。实际上,这通常需要在相关的用户数据如名称、地址等的注册之后对样本代码进行最后的编译。可以想象,用户相关的代码段包括用户识别代码段。以这种方式,身份如用户的名称根据用代码段表示的元数据是明显 的。
还可以想象,样本代码串包括与如用于制造、供应、支持、发行、出售、和/或促销样本的中介的身份有关的至少一个中介识别代码段。可选地基于中介的域名或IP地址的中介识别代码段可以包括中介的身份,但也可以包括与中介有关的其他元数据,如可以访问数字样本的提供给公众的平台或服务。一个示例涉及通过其中音乐文件可以源于公司EMI音乐出版的音乐出版服务如苹果公司的iTunes等发行音乐文件的音乐文件的分发。与具体的数字样本相关联的样本代码可以表示如下:“www.emi.com/www.itunes.com/beatles/yesterday-12345”,其中,“www.emi.com”表示所有者识别代码段,“iTunes.com”表示中介识别段,“beatles”表示关键词(艺术家)包括代码段,“yesterday-12345”表示包括与数字样本的艺术家、标题、以及唯一的识别数字有关的元数据的数字样本识别段。样本代码也可以表示为到存储具体的音乐文件的位置的网页链接,但样本代码也可以是对引导至具体的音乐文件的另一网页链接的交叉引用。
在步骤A)期间将会有利的是,定义用于在步骤C)期间分隔相邻的代码段的至少一个标点符号。可以使用各种标点符号,虽然由于样本代码往往用作(缩写的)URL,所以斜线(‘/’)符号可以用于分隔相邻的代码段。在正确的(缩写的)URL语法中,斜线符号通常也位于最后的代码段的后面。除了这些分隔字符之外,其他印刷符号如波浪号(‘~’)、点(‘.’)、下划线(‘_’)、以及减号(‘–’)也可以用在代码段本身内和/或代码段之间。
在本发明的一种实施方式中,样本代码串包括表示至少一个其他样本代码段的预定的数学处理的结果的至少一个校验代码段。当在样本代码的编译期间定义样本代码结构时,可以定义用于计算校验代码段的值的算法。例如,该算法可以使用或具有与已知的类别编码系统ISBN(国际标准图书编号)代码校验相似之处。用于生成ISBN校验字符的算法如下工作。为了生成ISBN校验字符,将每个ISBN数字乘以预定的相关联的加权系数并且将所得的乘积相加。第一组九个数字的加权系数以10开始并且形成降序序列10,9,8…2。从而,对于九个数字094001633,乘积和为0+81+32+0+0+5+24+9+6=157。该和除以数字11。(157/11=14余3)。11减去余数如果有的话,以得到校验数字。(11-3=8)。如果校验数字为10,则它用罗马数字X表示。在该示例中,最终的ISBN相应地 为0-940016-33-8。通过生成校验数字并且将校验数字与所接收的校验数字进行比较,可以验证ISBN的有效性。如上面所提到的,可以将相同或相似的校验合并在样本代码中。
在本发明的另一实施方式中,在步骤A)期间所定义的样本代码段还包括样本代码安全识别代码段。该代码段的应用将抵制怀有恶意的各方滥用样本代码,因为该安全识别代码段将被用作用于确定样本代码的真实性的校验。例如,在将样本代码输入到网页浏览器中之后,可以执行样本代码安全识别代码段的有效性校验。该安全相关的代码段可以是时间相关的(“动态的”),表示该代码段将仅在有限的一段时间内是有效的。如果安全校验表明样本代码不再有效或生效(in force),则将不授予对数字样本的访问。因此,安全识别代码段用作用于获得对数字样本文件的访问的交互式关键字。
在步骤A)期间不仅可以定义用于建立代码的代码段的数量和种类,也可以定义待串接的所定义的代码段的顺序。这使得能够创建如下完整的样本代码模板(代码格式):该样本代码模板可以根据前面所提到的专利申请PCT/NL2010/050303中所描述的方法和系统来识别,以及其中,代码段按预定的顺序排序。在步骤A)期间确定代码段的顺序可以增强对数字样本的样本代码和相关的存储位置的处理。
在本发明的一种实施方式中,可以重复执行步骤A)以生成多个样本代码模板,其中,该方法还包括步骤J),步骤J)包括选择待在执行步骤B)之前应用的代码模板。生成多个模板可以允许提供给用户的样本代码中存在另外的区别。例如,当事人可以直接向客户以及通过利用中介间接向客户提供数字样本。在这样做时,可以使用不同的样本代码模板,其中,直接客户可以接收代码,如没有使用中介的“www.owner.com/keyword/sample_id_1234”,而间接客户可以接收代码,如利用中介的“www.owner.com/www.intermediary.com/keyword/sample_id_5678”。
可以想象并且通常优选的是,将样本代码作为元数据嵌入到数字样本中以形成数字样本的标签、标志或标记,这便利于跟踪和追踪数字样本。嵌入的样本代码可以保持对于标准用户可见或不可见(样本内的代码)。本发明的一种实施方式包括具有根据本文中所描述的实施方式中的任何实施方式的样本代码的数字样本。
此外,本发明的一种实施方式涉及一种具有计算机可执行指令的计算 机可读介质,该计算机可执行指令在被加载到计算机系统上时向该计算机系统提供用于编译样本代码的方法和/或如上面所描述的向数字样本提供样本代码的方法的功能。计算机可读介质的示例为USB棒、内部和外部硬盘驱动器、软盘、CD-ROM、DVD-ROM等。
另外,本发明的一种实施方式涉及如用上面的方法编译的样本代码。本文中描述了使用作为“指纹”的全世界唯一的样本代码的优点。
本发明的一种实施方式还涉及一种用于使用上面的方法为现有数字样本编译全世界唯一的样本代码的系统,包括:至少一个样本代码模板生成器,用于定义至少一个样本代码模板,该至少一个样本代码模板包括待用于为数字样本建立样本代码的多个样本代码段,所述样本代码段至少包括样本所有者识别代码段、样本识别代码段、以及至少一个关键词包括代码段;至少一个搜索准则指定模块,用于对数字网络进行样本搜索;数字网络,连接至所述搜索准则指定模块,用于数字样本的存储;搜索模块,连接至所述数字网络,用于查找满足通过搜索准则指定模块所定义的至少一个搜索准则的、到至少一个数字样本在所述数字网络中的存储位置的数字路径;至少一个样本代码段指定模块,连接至所述模板生成器,用于指定通过代码模板生成器所定义的样本代码段的内容并且用于为通过搜索模块所查找到的至少一个数字样本生成样本代码,其中,样本所有者识别代码段由通过数字样本的所有者的互联网地址——具体地是IP地址和/或域名——来指定;以及至少一个数据库,用于存储所生成的样本代码与能够获得对数字样本的访问的到数字位置的数字路径之间的至少一个交叉引用,以防样本代码与数字路径相互有区别。例如,本文中描述了样本代码的一些实施方式。在一种实施方式中,搜索模块被配置成搜索存储在网络上的并且满足通过搜索准则指定模块所定义的至少一个搜索准则的至少一个数字样本的内容的至少一部分。在该系统的一种实施方式中,该系统还包括样本分析模块,该样本分析模块连接至搜索模块和样本代码指定模块,用于由搜索模块提供的搜索结果的分析,其中,分析模块可以被配置成对搜索结果分层次地排序和/或聚类。对搜索结果的分析以及随后的排序可以非常有利于提高使用如上面已经全面阐述的唯一的样本代码对现有数字样本进行编码的功效。
在本发明的一些实施方式中,该系统可以是可以在合适的设置和初始化之后完全自动化的(云)计算机实现的系统。
该系统还可以包括用于对系统发行样本代码进行管理的至少一个服 务模块。根据本发明的一种实施方式,该系统中包括用于控制和维护模板生成器、指定模块和代码生成器的数字用户/管理员接口。另外,该系统可以包括用于将数字样本存储在数字路径存储在数据库中的数字位置处的样本存储装置。合适的样本存储装置的示例为可选地在云中的网页服务器。在本发明的一种实施方式中,该系统还包括用于将所生成的样本代码分发/传送给一个或更多个用户的分发/传送模块。
本发明的实施方式中所使用的代码系统可以不是背景敏感的,因此可以适用于范围广泛的不同的领域,包括但不限于电子样本、物理样本、服务和权利。(voor opmerkingen ad“邮递员”zie Augmented reality betreffende“背景独立性和互操作性”)例如,邮递员可以使用使得能够在数据包传递期间跟踪数据包的数据包跟踪系统。然而,它们的跟踪系统仅在其特定的跟踪环境的背景下工作,并且不能用于例如跟踪该环境以外的项目。本发明的实施方式使得能够基于每个单独的样本特定的元数据进行具体的样本的背景独立的、宽的或全世界的识别。如果需要的话,本发明的实施方式中所描述的代码系统可以通过包括对外部用户无法访问的样本的来源或范围的内部参考来在具体的内部范围中使用。另外,可以通过将样本的来源或范围并入指定范围中来将由具体的公司所使用的代码系统的纯粹的内部指定范围变换成其他组织或个人可访问的外部范围。将代码系统的外部指定范围变换成内部范围的范围变换也可以通过移除对样本的来源或范围的参考来类似地执行。此外,根据一种实施方式的代码系统可以被配置成允许对各种不同类型的样本进行访问。根据各种实施方式,可以基于所选择的基础向其他组织或个人提供访问,例如,不同的权限级别、不同的组和子组、不同的安全级别等。
本发明的一些实施方式涉及代码生成器用于各种目的的用途,包括但并不限于生成特定的代码段的值、定义用于为数字样本建立样本代码的样本代码模板、或将各种样本代码段组合在一起以形成样本代码。例如,代码生成器可以通过使用来自各种数据源的输入值——包括但不限于关于来自数字样本的数据库输入或元数据输入的查询——执行其功能来生成指定的段值。代码生成器可以用于质量或完整性控制段,也可以用于具有动态值的段。
本发明的一些实施方式还允许仅在用户授权的基础上对元数据进行受控使用。例如,代码样本可以包括识别数字样本的所有权或来源的段,该段可以伴随有对代码样本的用户进行更具体地识别的用户指定段。例 如,用户指定段可以包括中介,如分销商或零售商、消费者、客户、控制器、海关,或者,用户指定段可以是用途定义,如病人、实践者、药剂师、居民等。这样的用户段可以指定仅由样本代码的授权用户访问与样本有关的特殊元数据,以要求该用户授权或授予对该样本的具体访问。
如果编码的样本共享他们的指定元数据的用于识别的一部分,则本发明的一些实施方式还允许由几个代码部分地共享样本代码段值。这可以使得样本代码的使用者或用户能够在确定样本代码是否是有效时具有额外的错误校验或验证选项,或可以使得所有者或创建者能够基于共享的元数据具有额外的处理选项。
本发明的一些实施方式允许对几个样本的样本代码进行组合以基于组合样本之间的现有关系来确定新的样本。例如,样本的组合可以保留样本的来源以及与组合样本的中介有关的任何指定准则。
附图说明
下面是示出了本发明的非限制性实施方式的图,其中:
图1示出了根据本发明的实施方式的用于为现有数字样本编译样本代码的系统的框图,以及
图2至图6示出了根据本发明的用于为数字样本编译样本代码的方法的另外的实施方式的示意图。
具体实施方式
图1示出了根据本发明的一种实施方式的用于为现有数字样本3编译样本代码2的系统1的框图。为此,系统1包括用于定义待用于为数字样本3建立样本代码2的多个样本代码段的代码模板生成器4,所述样本代码段至少包括:样本所有者识别代码段、样本识别代码段、以及至少一个关键词包括代码段。系统1还包括搜索过滤生成器5,可以通过搜索过滤生成器5定义用于对存储数字样本3的现有网络环境6进行样本搜索的一个或更多个搜索准则。网络环境中6可以是基于网页(基于云)的环境,或可以是专用网络,如内联网环境。搜索准则用于对存储在所述网络环境6中的样本3进行过滤并且定义必须要搜索网络的哪个部分以及必须要搜索样本3的哪个部分。样本3的待搜索部分可以是样本3的文件名和/或 样本3的内容如标题、正文文本、和/或摘要。搜索过滤准则可以基于通过使用代码模板生成器4定义和最终预先指定的代码段。通过使用搜索过滤准则对网络环境6进行过滤,可以获得搜索结果7,可以对搜索结果7进行处理——具体地是分析和/或进一步过滤。搜索结果7提供关于样本3满足搜索准则的信息以及样本3的存储位置8。基于搜索结果7和通过使用代码模板生成器4所定义的代码模板,可以指定不同的代码段,并且随后将其串接以形成一个或多个样本代码2。具体的样本3的样本代码2、样本3的相应的存储位置(数字路径)8、以及所应用的代码模板9被交叉引用地存储在数据库10中。未预先公开的国际专利申请PCT/NL2010/050303中描述了编译样本代码2的实施方式,该文件通过引用合并到本文中。
下面以文本和图形的方式对根据本发明的方法的另外的非限制性实施方式进行阐述,其中,将描述三种情况:
1.第一种情况:可以基于用于文件存储的现有目录结构来定义代码模板;
2.第二种情况:预先定义代码模板。这必须判定必须基于这些模板中的哪些模板来对哪些现有文件进行编码;
3.第三种情况:对于其余的文件或对于所有的文件,不可能预先定义代码模板。必须从文件的内容和/或元数据中得到代码模板。
为了支持对根据本发明的现有文档的编码,在所有三种情况下进行下列准备:
·将文件放置在它们的存储位置,例如,在几个服务器上。
·提取文件的元数据以及到文件的访问路径;文件的元数据和文件对于本发明的系统而言是可读的。
·复制识别工具产生一系列复制文件。
·人或可配置的条件判定将保存文件的哪些复制标本(exemplar)用于本发明的处理。
·由于企业或人的期望,将其余的复制删除或保存在专用档案中。由于明确的情形,删除是优选的。下一个步骤确保将没有文件丢失。
·对根据本发明的用于处理的保存文件进行复制,以在处理期间在数据丢失或无论什么错误的情况下保存原型。在完成编码之后将删除副本,并且在处理开始之前将编码的文件与保存的副本或存储的原 型参数进行比较。
处理原则上是自动的;然而,处理期间的准备、一些判定、以及例如特定情形下的关键词的输入必须要由知识渊博的用户进行。这些用户视情况而操作;他们必须记录他们的判定和他们的判定的原因。
在其中在所描述的处理中应用已知的代码模板的情形下,代码模板的一些段被切割以移除模板的用于处理的通用部分。在开始特定进程之前,判定在该进程的下一个步骤期间将考虑应用任何所应用的代码模板的哪些段。不考虑的段将为如对变换协议、合法所有人的域服务器名称进行定义的段、或质量控制段。所考虑的段通过待编码的文件的元数据或内容来确定。不考虑的段通过其他通用指定准则来确定,并且已经添加到父代码模板中或将基于在下一个步骤中所生成的值来计算。保留用于值生成的段值被称为其余段。对于更多的通用段的这种切割,可以想像的是,使用问答树来支持必须判定应当在下面的处理中考虑的段的用户。这样,知识渊博但技术上不太熟练的用户可以判定用于生成代码模板的输入信息。这些答案应当可选择用于每个问题以获得有用的用户响应。对于下面要描述的第一种情况,问题可以是:哪些术语是指定您的组织的文件的最通用的术语:答案1:GFCore、GF、Search、GFlower,答案2:Task1、Design、Optimizer、2009、2010。答案选项的内容从所应用的目录结构中得到。对于下面要描述的第二种情况,与第一种情况相同的问题的所提供的答案可以是:答案1:合法所有者的IP地址,答案2:工程名称。
可以想象以下情形:其中,不是所有的必须与模板有关并且根据该模板来编码的文档都属于相同的合法所有者。在这样的情形下,可以应用第二种情况的版本来根据几个已知的合法所有者通过将文件的元数据或一部分与包括合法所有者的名称的关键词集相比较来分离文件。使用过滤准则如合法所有者的名称、IP地址等对文件进行过滤;具有名称、IP地址、电子邮件地址等的默认列表可以用于例如避免由于手动插入的错误和不完整。在合法所有者不是已知的或部分不是已知的情形下,发现所有者名称是分析的一部分。在下面的描述中,假设完成了根据文件的所有者分离文件。描述假设互相考虑一个又一个文件集;每个集合属于相同的合法所有者。必须针对除了已经处理的文件集之外的具有另一合法所有者的下一个文件集重复该流程。
第一种情况:将现有预先协调的结构映射到代码模板并且将代码模板用于编码文件
第一种情况的主要思想是,利用现有结构信息为现有文档定义代码模板。结构信息包括文件的存储结构,如服务器、驱动器和文件夹(映射或目录)的名称和次序以及文件在文件夹中的位置。在这种情况下,假设现有结构信息基于关于文档对于企业或个人的意义的一些基本原理(rationale)。原则上自动化的过程提出了一些手动处理和由知识渊博的用户做出的处理之间的判定。
被考虑用于根据他们的现有存储结构编码和得到代码模板的文件在下面的描述中被称为修订文件。
通过采集关于每个修订文件的一些数据,例如,包括文件名称和文件格式的文件存储路径、文件的创建者、来自元数据的k字节的大小、驱动器的k字节的大小、创建日期和修订号,进行用于得到代码模板的开始。这些数据被写入数据库表中;该数据库表中的每个文件描述获得表内部记录ID(在此,文件标识符简称为FID)。在整个下面的处理中保存该ID,以使得能够保存代码模板的得到与属于所得到的特定代码模板的特定文件中的每个文件之间的关系。该步骤的结果是具有与应当被处理的文件有关的元数据的数据库表;其中,还包括如上面所提到的到文件中的每个文件的存储位置的路径。FID值用作数据库内部引用。
生成上面所提到的具有文件的元数据的表的内容之后的下一个步骤是,读取每个文件记录的路径属性并且将其分成段。段等于文件的访问/存储路径中的节点,如服务器名称、驱动器名称、目录名称和文件名称。在本发明的一种实施方式中,结果可以被想象为如下图形:该图形以主机/服务器名称作为入口节点并且以驱动器和目录作为被组织为图形分支的节点。参见图2的图形表示作为示例。在该图形中,“marie”是文件服务器名称。“C:”、“E:”是驱动器,次序GFcore、Task1是引导至具有名称Doc1的文档文件以及被命名为Doc2的另一文档文件的分支。这些节点在下面的说明中将被称为文件节点。在此没有表示文件格式,因为它们与如根据本发明所描述的处理不相关。“FID1”和“FID2”等表示上面所提到的数据库表中的内部表记录ID。
图2所示的图形是用作文件的现有存储结构与数据库表中的代码模板定义之间的中介的合适的数据结构,因为这两者都应用父子数据结构的概念。子称其父为目录树的分支中的前辈,并且代码模板中的特定的段尤其指代一系列段中的定义代码模板的其前辈。在示例图形中所表示的数据 将被变换成代码模板,并且代码模板创建代码。
在将所提供的图形变换成表示代码模板的数据之前,通常考虑如何将必要的变换步骤与得到代码模板结构的步骤相关。下面的说明应当有助于理解将在分析步骤之后进行说明的变换步骤。
在本实施方式中,变换分析处理的总的思想是,在创建文档的模板期间,最后一个段用于定义对文档本身的识别;如上面所提到的具有分隔点的其名称和文件格式。在下一个步骤中,不再考虑在文件中没有结束但在空目录中结束的分支。假定不要求这些分支作为存储结构;从而,不必将这些分支映射成代码模板。
现在,图形的每个分支引导至文件,如文档。这在上面所提到的包括每个修订文件的路径的表的创建期间在变换开始之前已经被确保了。该文件总是图形的任何分支的倒数第二个节点。从共同的父节点分离出来的所有文件节点都属于相同的代码模板。
为了保存分析结果,使用两个数据库表;在下面的描述中称为“Node”和“DocNode”。表Node定义了每个节点值以及其他数据之外的其父。表DocNode定义了表示文档文件的节点值、其父节点标识符(=表Node中节点记录的外关键字)、叶子节点的值(=文档文件节点的子节点=处理开始时引入的文件记录表的ID)、以及其他实用数据。表定义的一部分是:Node(ID,ParentID,NodeValue)和DocNode(ID,NodeID,PathID,NodeValue)。
由下而上分析图形,保存节点的次序和节点名称,并且保持文件具有共同的父节点的信息,原则上生成代码模板定义。在本发明的一种实施方式中,该处理由下面的实用数据来支持:图形的每个节点必须具有选项以携带大量的标志(“开始节点”的S标记,“已处理”的P标记,“锚点”的A标记)。通过使用这些额外的标记,在下面对本发明的给定实施方式中的得到代码模板的步骤进行描述。在特定的处理步骤期间哪个节点携带哪个标记依赖于实际的步骤以及其在处理流程中的次序。注意,仅可以对文件节点标记P。然而,文件节点不能携带A标记。叶子节点(FID)不能携带任何标记。
已经说明了分析处理的总的思想,可以对分析步骤进行描述。描述用图2所示的图形指代两个所提到的保存分析结果的表以及三个所提到的在处理期间可以被设置用于每个节点的标记。
在分析图形之前,用S标记对所有被选择作为开始节点的节点进行标记。开始节点的选择从如上面的概要部分中所描述的准备处理中得到。
对于图2所示的示例图形,在此假定对下面的节点标记S:GFCore、GF、Search、GFlower和Doc8。该结果为标记S的图形。对被引入以暂时保存分析结果的变量在变量名称的前后用“<”和“>”标记。
由下而上一个又一个分支地分析图形:
1.转到从左侧数的第一个未标记P的文件节点(开始时,没有标记P的节点;从而,大部分左侧未标记P的节点为分析处理的开始处的Doc1);结果:查找到了第一个尚未处理的文件节点;
2.如果该节点被标记S(参见图2的Doc8),则在NodeID=NULL、NodeValue=节点的名称且PathID=文档节点的子节点(=叶子节点)的内容的DocNode中创建记录;将标记S的节点也标记为标记P的节点,并且转到(1);否则继续(3);结果:做出了所查找到的文件节点是否还是开始节点(标记S的节点)的判定;
3.在文档节点的第一个父节点处停止(图2中的分析处理的第一轮和第二轮中的Task1);结果:查找到了文件节点的父节点;
4.将该节点设置为anchor=节点的索引的锚点;结果:设置了锚点(等同于“标记实际考虑的节点”;
5.在NodeValue=节点的名称且ParentID=NULL的用于该锚点的Node表中创建记录;结果:保存了实际节点的名称以及其与前辈节点的关系;后者在处理的此刻仍是未知的;这用值“NULL(空)”标记。
6.将所创建的锚点记录的ID保存为<子记录ID>;结果:将实际节点的数据库表ID保存为变量;
7.依次转到其直接子节点(对于Task1作为锚点:Doc1和Doc2);结果:查找到了实际节点的子节点;
8.如果这样的子节点为文件节点(其本身仅具有一个子节点,FID),那么在NodeID=锚点节点的ID、PathID=叶子节点的内容且NodeValue=节点的名称的DocNode中创建记录;结果:查找到了文件;将其名称和父节点以及内部表记录ID保存在数据库中;
9.将已处理的文件节点标记为标记P的节点;结果:将节点标记为已处理。
10.在完成锚点的所有子节点之后,转到锚点并且将锚点节点索引设置为<子节点>;结果:移除了锚点标记。
11.如果锚点节点被标记为开始节点:则从左侧使用第一个未标记的文档节点在(1)处开始重复流程。否则继续(12);结果:根据最后处理的节点的S标记进行了处理。如果最后处理的锚点节点也为开始节点,那么在该节点开始处理最终现有的下一个分支;直到现在,仅考虑了锚点节点的文件节点。在相同的节点处开始针对所有分支进行重复;
12.转向其父节点;结果:查找到了在前的所考虑的节点的父节点;
13.将父节点的节点索引保存为<最后访问的节点>;结果:保存最后访问的节点的信息用于继续处理;
14.在NodeValue=节点的名称且ParentID=NULL的用于该最后访问的节点的Node表中创建记录;结果:将关于最后访问的节点的信息也保存在了数据库中;
15.将创建的记录的ID保存为<父记录ID>;结果:将待用作来自其子节点的参考的最后条目的数据库ID保存在了数据库表中;这些参考仍然被设置为值“NULL”;
16.用<父记录ID>更新Node.ID=<子记录ID>的记录的ParentID;结果:将现已知的父参考设置在了数据库中;
17.<子记录ID>:=<父记录ID>;结果:为下一个步骤做好了准备:如果等同图形节点本身具有父节点,则最后考虑的数据库记录ID将是下一个<子记录ID>;
18.在(12)处开始重复,直到父节点被标记为开始节点(标记S的节点);标记S的节点为如步骤12与步骤17之间所描述地被处理的最后节点。不考虑标记S的节点的父节点;结果:对开始节点(标记S的节点)的所有分支都进行了处理;
19.从左侧使用第一个未标记P的文档节点在(1)处开始重复流程;结果:查找到了下一个尚未处理的分支;以及
20.如果没有未处理的文件节点剩余,则停止。
图3示出了示例图形的一部分以说明分析步骤的处理步骤中的一些步骤。该图示出了两轮之后的情形;第二轮包括步骤9。数字为来自上面的列表的处理步骤。箭头示出了处理的方向。S、A和P为设定标记。图 2的变换图形的左侧分支用来自变换的分析步骤2的子步骤1至19的标记表示。从而,图3中的数字指代前面所提到的分析步骤。
在完成对整个图形如图2所示的图形的分析之后,表Node和表DocNode根据所示的图形示例包括记录。参见下面的Node表和DocNode表。
表Node:
ID | ParentID | NodeValue |
1 | NULL | GFCore |
2 | 1 | Task1 |
3 | NULL | GF |
4 | NULL | GF |
5 | 4 | Design |
6 | NULL | Search |
7 | 6 | Optimizer |
8 | NULL | GFlower |
9 | 8 | 2009 |
10 | NULL | GFlower |
11 | 10 | 2010 |
12 | 11 | 1stHalf |
13 | NULL | GFlower |
14 | 13 | 2010 |
15 | 14 | 2ndHalf |
表DocNode:
ID | NOdeID | PathID | NodeValue |
1 | 2 | FID1 | Doc1 |
2 | 2 | FID2 | Doc2 |
3 | 3 | FID3 | Doc3 |
4 | 5 | FID4 | Doc4 |
5 | 7 | FID5 | Doc5 |
6 | 9 | FID6 | Doc6 |
7 | 12 | FID7 | Doc7 |
[0096]
8 | 15 | FID9 | Doc9 |
9 | NULL | FID8 | Doc8 |
根据表Node和表DocNode,可以非常简单地创建代码模板和代码。根据Node表,可认识到,父子层次必须遵循一个接一个;必须将节点值以及父子关系复制到代码段表中;必须添加类似合法所有者的共同模板部分的段值以及变换协议以及用于指定单独的文件标识符如称为“文档”的最后的段值。
根据表DocNode,得到用于代码创建的值:代码模板标识符通过属性值NodeID和来自属性NodeValue的文档名称可得到。值PathID使得能够查找到明确的修订版本并且将其复制到根据代码模板值所得到的文件的一部分。另外,文件标记有创建的代码。在此没有对这些步骤进行描述,因为他们由未预先公开的国际专利申请PCT/NL2010/050303公开。判定不将上面所描述的数据库表的图形数据直接变换成代码引擎数据库的代码模板和代码表,因为这两个数据库用于不同的目的。从技术的角度来看,可以直接导入代码引擎的数据库中。
作为示例,左侧图形分支的所得到的代码模板看起来像 http://www.greenflower.com/GFCore/Task1/document;左侧分支的两个文档的代码为http://www.greenflower.com/GFCore/Task1/Doc1和 http://www.greenflower.com/GFCore/Task1/Doc2。
第二种情况:将现有预协调知识用于创建代码模板和对文件进行编码
第二种情况的主要思想是,为通常已知的代码模板层次查找叶子代码模板以及查找哪些文件属于叶子代码模板中的哪个,使得可以使用该代码模板作为蓝本对其进行编码。第二种情况还包括其中叶子代码模板也已知并且仅必须发现哪些文件属于哪个叶子代码模板的情形。通常,这两种情形的不同之处仅在于第一步骤。
考虑图4的示例。假设选择第二等级代码模板以构造企业的文件库。第二等级代码模板为: http://www.greenflower.com/Project/Task/document。如上面所说明的,可以切除所应用的代码模板的通用部分。
仅考虑将所谓的其余段用于进一步的处理。第一目标是查找被称作 “Project”和“Task”的段的叶子代码模板的段值。这些是仅具有通用描述值并且目的不是识别文件本身的第二等级(图4中)的段值。第二目标是查找属于每个叶子模板的所有文件以使得能够对文件进行编码。对于第一目标,假定可以设置关键词集包括所选择的代码模板的子段的可能的值。对于示例,可以为描述所有项目的该段建立关键词集以及建立描述任务的另一关键词集。在此,假设知识渊博的用户可以插入与每个段有关的关键词;例如,对于“Project”:Kernel(内核)、SEO(搜索引擎优化)、DB design(数据库设计)、Template generator(模板生成器)、Code generator(代码生成器)、Source generator(源生成器)等;以及对于“Task”:Concept(概念)、Functional design(功能设计)、Technical design(技术设计)、Discussion(讨论)、Development(开发)、Test(测试)、Evaluation(评估)等。另外,用户将表示“Task”的哪些关键词属于“Project”的哪个关键词。通常,也可以应用主题词、语义网络等。可以对于每个project执行所有命名的task;那么,属于“Task”的每个关键词与每个命名的project(project的每个关键词)有关。也可以是在每个project中仅执行task的子集。因此,所提到的示例可以形成尤其是下面的关系:
Project | Project的Task |
Kernel | Concept |
Kernel | Functional design |
Kernel | Technical design |
Kernel | …… |
SEO | Concept |
SEO | Functional design |
SEO | Technical design |
[0105] 根据上面的表,可以直接得到期望的叶子代码模板。
示例:
http://www.greenflower.com/Kernel/Concept/document
http://www.greenflower.com/Kernel/FunctionalDesign/document
http://www.greenflower.com/Kernel/TechnicalDesign/document
…..
http://www.greenflower.com/SEO/Concept/document
http://www.greenflower.com/SEO/FunctionalDesign/document
http://www.greenflower.com/SEO/TechnicalDesign/document
…..
在下文中,如果包括Project的段的部分是有意义的,那么模板被称为T21、T22等,而如果包括Task的段的部分是有意义的,那么模板被称为T211、T212、T213、…、T221等。
假定叶子代码模板已知的情形,在此第一步骤将是从给定的叶子代码模板中得到前面所提到的表的值。简单的是读取其余段的值并且使用图5所示的结构将值复制到表中。目标是明确地得到表中的其余段值之间的关系用于进一步的分析。在这两种情形下都需要上面的表;插入这些值的过程依赖于以下事实而有所不同:叶子代码模板值首先是否已知,或它们是否必须根据特定的表的值来构造。
对于第二目标(查找应当用每个所构造的叶子代码模板来编码的文档),假定文件内容的部分的元数据中至少包括形成叶子模板的段值的关键词。如果它们在此出现,则可以假定文件属于包括其段值之一的关键词的代码模板。此外,来自段值(形成段值)的关键词本身不必出现在文件内容的元数据中;文件中可以出现关键词的同义词或近义词(semantic close neighbor),无论如何都表示:文件表示与模板的段值中的关键词有关的内容。例如,如果缩写词“SEO”为关键词,则文件可以包括具有上面的情况特征或具有下面的情况特征的其长的形式“Search Engine Optimization(搜索引擎最优化)”,或文件仅包括类似“search(搜索)”、“search engine(搜索引擎)”、“optimization(最优化)”的长的形式的部分或甚至可能是如“crawler(网络爬虫)”和“indexing(索引)”等近义词。
为了支持查找属于特定的代码模板的文档,必须预先定义每个模板每 个段的所期望的关键词以及期望与第一个建立的集合的特定关键词有关地出现的关键词。在此,第一个建立的关键词集被称作基集。在此,具有与基集中的关键词有关的关键词的集合被称为子集。假设基集可以包括属于几个代码模板的关键词。示例:类似图4和上面的表中的包括{Kernel、SEO、DB Design、…}的模板的基集属于根据图5的表所构造的或为上面的表的值的源(叶子代码模板在开始情况2之前已经被定义)的所有叶子代码模板。原则上,子集{SEO、search engine optimization、internet search、search engine、optimization、crawler、inedx、…}指代基本关键词“SEO”,并且假设包括相关的子集的关键词中的一些关键词的文件属于具有Project=SEO的段值的代码模板。这将是得出结论的开始,因为考虑到关键词全部出现在文档文件内并且与来自抓取的文档文件的相同库存的其他文档文件中的关键词的出现相比较,所以必须评估其余段值是否也具有匹配并且project段的匹配是否具有足够好的等级评定。关键词的基集仅包括所有关键词一次。
如前面所提到的,列出了被假定为适合于用作用于对现有文件进行编码的蓝本的代码模板的集合。对于列表上的每个叶子代码模板的每个其余段,基于基集的关键词的子集通过基集与段有关。在该处理期间,如果出于无论任何原因都没有包括关键词,则可以由知识渊博的用户对基集进行扩展;子集可以包括比基集中的关键词多的关键词;这是因为子集包括期望出现在文件的本体或元数据中的那些关键词,这些关键词在某种程度上与所考虑的段所属于的代码模板有关。每个子集关键字或关键词得到与基集中的其关键字或关键词的交叉引用。子集中的每个关键词必须对基集中的关键词进行引用。文件中的关键词或其元数据的每次出现被理解为文件属于包括等同于关键词的子集的段的代码模板的机会。通常,子集可以包括指代几个基本关键词的关键词。如果基集中不存在适合子集中所必需的关键词的关键词,则必需使用该关键词对基集进行扩展。可以使依赖于出现的文件部分而被应用的加权(系数)相关联,例如,元数据中的出现获得比标题中的出现高的加权、标题中的出现获得比摘要中的出现高的加权、摘要中的出现获得比段落中的出现高的加权,等等。相关联的加权是可配置的。可以应用其他加权确定系数,还包括彼此之间关键词出现的关系。原则上不存在排除任何方法的原理方面的原因。应当抓取文件的哪些部分以查找子集关键词的出现也是可配置的。
在任何情况下,关键字或关键词的集合包括代码模板段的名称以及其已知的同义词。该集合还可以包括列表上所给定的模板的所有父模板的相 同段的所有名称和同义词。另外,该集合应当基于机构的范围和目的包括概念上与段的名称和同义词有关的关键字或关键词(近义词)。
对于前面所提到的列表上的每个代码模板的每个段,在段与基集之间以及在基集与关键词的子集之间进行交叉引用。
图5中给出了说明。用点表示关键词;用圆表示集合。关系用集合与所应用的表之间的箭头表示。为了说明两个表中的基集ID之间的关系,对ID进行环绕标记。这样做是为了避免另一箭头横跨图的其余部分。
说明书的下面的部分对上文进行说明。示出了用于查找叶子模板与文件如文档文件之间的关系的步骤。通过所提到的示例说明处理步骤:定义包括段关系的父模板与叶子模板之间的关系(简写的表:叶子段表)。在此为了说明示出了段值;事实上可以应用ID。下面的表为前面的表的扩展。事实上,在本发明的一种实施方式中,这两个表相同。
表:定义父代码模板段与叶子代码模板段之间的关系:
ID | 最高(父)模板 | 父模板的段 | 叶子模板 | 叶子的段 |
1 | T1 | Project | T11 | Kernel |
2 | T1 | Project | T12 | SEO |
3 | T1 | Project | T13 | DB design |
4 | T1 | Task | T111 | Concept |
5 | T1 | Task | T112 | Functional design |
6 | T1 | Task | T113 | Technical design |
7 | T1 | Task | T121 | Concept |
8 | T1 | Task | T122 | Functional design |
9 | T1 | Task | T123 | Technical design |
[0126] 表:定义关键词的基集:
ID | 基集号 | 基集关键词 |
1 | 1 | Kernel |
2 | 1 | SEO |
3 | 1 | DB design |
4 | 2 | Concept |
5 | 2 | Functional design |
6 | 2 | Technical design |
表:定义叶子段值与基集关键词之间的关系,其中,行ID为“叶子段表”的ID,基集ID为定义关键词的基集的表的ID:
行ID | 基集ID |
1 | 1 |
2 | 2 |
3 | 3 |
4 | 4 |
5 | 5 |
6 | 6 |
7 | 4 |
[0130]
8 | 5 |
9 | 6 |
表:定义子集关键词:
ID | 子集关键词 |
1 | SEO |
2 | Search engine optimization(搜索引擎优化) |
3 | Internet search(互联网搜索) |
4 | Search engine(搜索引擎) |
5 | Optimization(优化) |
6 | Crawler(爬行器) |
7 | Index(索引) |
8 | …. |
表:定义哪些子集关键词属于哪个基本关键词;等同于定义每个基集的子集(简写的表名称:用于基集-子集关系的BS-SS):
ID | 基集ID | 子集关键词ID | 子集编号 |
1 | 2 | 1 | 1 |
2 | 2 | 2 | 1 |
3 | 2 | 3 | 1 |
[0135]
4 | 2 | 4 | 1 |
5 | 2 | 5 | 1 |
6 | 2 | 6 | 1 |
7 | 2 | 7 | 1 |
… | … | …. | |
765 | 5 | 27 | 12 |
766 | 5 | 45 | 17 |
在这已经完成之后,一个文件接着一个文件地进行抓取以及比较,以获得每个子集的关键词的出现。在本发明的一种实施方式中,策略为开始与如下子集的比较:该子集与列表上的代码模板的任何第一或任何最后其余段有关。之后,基于例如关键词出现的加权以及出现的频率进行这些子集中哪些子集最接近文件的等级评定。
在这已经完成之后,对于在已经比较的段之后(或之前)的其余段,仅使用第一等级评定列表的顶部的子集进行下一个比较轮回。为了说明,假定对于特定的文件,抓取段5产生以T22开始的名称的模板的高的等级评定。看起来不需要在分析继续期间抓取与其他模板如模板T21或T23的段6有关的子集。
对考虑在该第一等级评定列表上有多少条目用于继续分析进行配置。例如,如果T21和T22可以关于段5被等级评定为高,则可以使用涉及段号6的两个模板的关键词子集继续进行分析。
该配置的准则为如从顶部开始计算的条目的数量或达到特定的等级评定值的条目的数量。在这已经完成之后,计算第二等级评定列表,并且根据第二列表上关于第三段的子集等的等级评定继续进行比较,直到对以前由匹配的等级评定限制的所有其余段的子集都进行了比较。通常,子集的关键词可以包括在与几个基集有关的几个子集中,不仅必须记录在子集中的出现,而且还必须记录与来自母模板的段的关键词的关系,在此,例 如,与“Project”和“Task”的关系,以总结哪个子集编号应当与关键词出现有关。
下一个表示出了与关键词所属于的子集相关的关键词的出现的示例。为了说明,在此示出了子集关键词;事实上可以应用子集关键词ID。该表示出了被命名为“Doc1.doc”的文档文件的抓取结果的一部分。对与段5有关的所有子集进行比较,其中,段5具有值“Project”。
子集关键词 | 子集编号 | 文件的一部分 | 频率 |
SEO | 1 | 1 | 1 |
Kernel(内核) | 2 | 3 | 1 |
Functional(功能) | 6 | 3 | 1 |
SEO | 1 | 2 | 3 |
Search engine(搜索引擎) | 1 | 3 | 4 |
Start-up(启动) | 7 | 3 | 3 |
Coding(编码) | 12 | 1 | 1 |
Duplication(复制) | 13 | 1 | 1 |
Index(索引) | 1 | 3 | 3 |
Access(访问) | 14 | 4 | 1 |
在该示例中,“文件的一部分”表示标题的等级。明显的是,子集1对于能够得到上面的表内容的文件具有最高匹配。匹配涉及几个标题等级。其他匹配的关键词被分配给几个子集。假设,指代如下模板的段6的子集可以发生下一个比较:该模板是指从他们的第五段到子集1。在该示例中,这是图1所示的模板;可以有更多。
比较结果存储在存储库中。从该存储库中可以得到最终的匹配度。具有对于被比较的文件的最高等级评定的代码模板被交叉引用,并且可以用作用于之后对文件进行编码的蓝本。交叉引用存储最接近的代码模板的识别、文件的识别和匹配度。
在已经对所有文件进行比较之后重复该处理。
依赖于该配置,将手动处理或根据第三种情况的描述处理具有低匹配度或不具有任何匹配的文件,或者,如果第三种情况没有产生结果,则将手动地使具有低匹配度或不具有任何匹配的文件与代码模板相关。
具有足够高的匹配度的文件可以按照根据本发明的方法应用交叉引用的代码模板来编码。
文件 | 段号 | 子集 | 等级评定 |
Doc1 | 5 | 1 | 1 |
Doc1 | 5 | 7 | 3 |
Doc1 | 6 | 12 | 2 |
Doc1 | 6 | 8 | 1 |
Doc2 | 5 | 1 | 1 |
Doc2 | 5 | 14 | 4 |
Doc2 | 6 | 4 | 1 |
该示例示出了文件Doc1获得关于与子集1和子集7的第一比较步骤的交叉引用。子集1属于代码模板T22并且获得等级评定1(最高等级评定);表示其很好地适合关键字。子集7属于代码模板T91并且获得等级评定3;表示在子集7与文件Doc1的关键词之间存在某个对应关系。在此,第二比较步骤再次产生对代码模板112的子集12的两个引用。等级评定为2;表示在子集12的一些值与在文件Doc1中查找到的关键词之间 存在良好的对应关系。接着引用模板221的子集8以及再次引用最高等级评定。在这种情况下,匹配结果非常清楚。用于对文件Doc1进行编码的最有可能的代码模板将是T221。
该示例示出了文件Doc2在比较步骤1(匹配模板T22)期间还产生两个结果,一个具有等级评定1,另一个具有等级评定4。等级评定4被配置成合理的高的等级评定;从而,该结果没有从较早的步骤中取消。总而言之,文件Doc2还匹配代码模板T222,因为段6的子集4的等级评定为模板T222的第六段。该值也非常适合T22的等级评定和值。
假定的代码可以是:
对于文件Doc1.doc:
http://www.greenflower.com/SEO/Concept/Doc1.doc
对于文件Doc2.docx:
http://www.greenflower.com/SEO/FunctionalDesign/Doc2.docx
在前面的说明过程中跳过了文件扩展;事实上文件扩展是文件名称的一部分。
第三种情况:得到预先协调的知识并且将预先协调的知识用于生成代码模板和对文件进行编码
第三种情况下的主要问题是查找可以描述文件的关键字或关键词的基集、关键字或关键词的子集,以及查找特定的子集内的关键字或关键词之间的顺序,以根据子集构造代码模板。
与第一种情况和第二种情况相比较,不存在可用的对代码模板的定义。仅已知的模板的一部分涉及合法所有者段,并且最终通用段值为已经在第一种情况和第二中情况中所提到的默认值。在本发明的另一实施方式中,合法所有者也不是已知的并且必须从文件内容或文件的元数据中得到。该处理原则上与得到其他段值的处理相同。还假定可以优选地对在第二种情况下所描述的处理的组合进行组合用于这些段。第二种情况与第三种情况之间的组合也可以有利于其他段;尤其有利于具有一些假定的默认值的段。
在本发明的一种实施方式中,禁止对文本文档的完全文本抓取。可以根据配置如通过标题的所配置的等级对文本文件进行抓取。最终是否可以 抓取现有摘要(文件的该部分中的完全文本抓取)也是可配置的。在任何情况下,都对元数据进行抓取,在另一实施方式中,进行正文的完全文本抓取也是可配置的。
对于其他类型的文件,例如,可以对仅元数据和标签进行抓取。在开始抓取之前,填写具有如下关键词的列表:该关键词被排除考虑作为关键字或关键词;该列表被称为排除列表。
排除 |
该(the) |
是(is) |
他(he) |
[0163]
她(she) |
等等.….. |
然后,通过所配置的部分一个文件接着一个文件地进行抓取。不在排除列表中的每个关键词连同对文件中的文件的一部分的交叉引用一起被写在字词列表中。没有明确给出文件的一部分;它们被给出作为对文件如元数据、标题等级1、标题等级2、摘要等的一部分的类型的参考。(参见前面所提到的配置)。在抓取期间没有进行进一步的比较。
文件 | 关键词 | 文件的部分 |
D | 生产(Production) | 0 |
D | 生产(Production) | 2 |
D | 生产(Production) | 3 |
D | 准备(Preparation) | 3 |
D | 准备(Preparation) | 3 |
D | 生产(Production) | 4 |
D | 生产(Production) | 2 |
D | 生产(Production) | 2 |
在这完成之后,针对重复对字词列表进行搜索。在对重复进行计数之后移除重复的字词,除了在文件的每个部分作为“关键词”出现的字词之外,并且所有受影响的引用被重新组织成文件的每个部分的每个关键词出现时剩下的字词以及文件的每个部分的频率。在本发明的另一实施方式中,搜索以防止关键词的复制在建立字词列表期间发生。
在这完成以后,根据等级评定准则如出现的频率以及出现的文件的一部分对关键词的列表进行分等级。即使以低的等级出现,也不从列表中移除任何关键词。
在本发明的一种实施方式中,可以将同义词减少至主要关键词;这是具有模拟上面所提到的去复制的结果的步骤。
基于语言规则以及语义的更多的减少是可以想象的。
文件内的关键词的等级评定的中介表:
文件关键词 | 频率 | 文件的一部分/加权 | 等级评定 |
1 | 1 | 0/5 | 5 |
1 | 3 | 2/4 | 12 |
1 | 1 | 3/3 | 3 |
1 | 1 | 4/3 | 3 |
2 | 2 | 3/3 | 6 |
用于等级评定的较大的值被理解为涉及文件的更重要的关键词。
ID | 文件 | 关键词 | 等级评定 |
1 | D | 生产(Production) | 23 |
2 | D | 准备(Preparation) | 6 |
该图通过建立局部的等级评定之和示出了简单的整体的等级评定。其他等级评定计算是可以想象的。下一个步骤是搜索列表组以查找列表子集的关键词的模式。在本发明的一种实施方式中,将数据挖掘技术应用于该步骤。可以应用其他关于模式识别的方法,尤其是基于实体论的方法。所应用的方法通常还可以从适合于确定协作标记系统和协作系统的重要性的方法中得到。独立于所应用的方法和工具的实施方式,模式识别的第一 个步骤是分别查找主要的索引关键词或主要的关键词集。如模式被理解为索引关键词的子集=关键字或关键词,其中,每个关键词在形成模式方面是突出的。不突出的索引术语获得与突出的关键词的关系,并且在处理的继续中用突出的关键词表示。必须对所得到的模式进行比较,以在模式之间查找相似的模式或相近的模式作为第一步骤的一部分。目标是如果可能则减少非常相似的模式的数量。分析协作系统的方法可以应用于本发明的实施方式中的相似性计算。
下一个模式识别目标是查找索引术语的模式之间的语义关系,例如哪些被放置在分类的相同分支(领域)中。这些接下来的模式事实上为与第一模式识别步骤有关的元模式;在此,将它们称为聚类。由于可以被期望用于文档或通常协作的文件的有限的语义领域,所以该聚类建立是可能的。通常已知的是,在给定的协作环境中文件的主题是什么。例如,通常可以假定,文件可以包括关于项目、产品、管理主题、员工、接触等的数据。其中,可以给定分类或至少给定所得到的主要关键词之间的语义关系作为判定实体。可以针对修订将查找模式的步骤重复几次。
只要没有准则可以被定义用于判定什么时候停止对模式识别的修订,则人必须参与做出判定。这也是用于定义模式的相似性的停止判定准则的情况。
如前面所提到的,聚类中的每个模式等同于定义代码模板的段的关键字的候选子集。相似或相近的模式的每个相应的子集被假设为属于相同的代码模板。可以包括在形成特定的代码模板中的关键词的语义范围分别依赖于相似性准则或相近性准则。下一个步骤处理根据关键字或关键词的候选子集定义代码模板。无论如何,合适于将如分类应用于支持该处理;本发明的第一实施方式至少部分地涉及个人判定制定者。可以将模式以及所得到的关键词(基于例如分类)之间的依赖性提供给人用于判定。保存模式与文件之间的关系,以使得能够根据可以由个人基于模式定义的代码模板来对文件进行编码。下面的表中的“关键词”列示出了在模式分析的第一步骤中查找到的突出的关键词的示例。“子集”列示出了被识别为形成语义相关的关键词的集合的突出的关键词的聚类;在此,字词描述生产阶段、生产中的任务以及资源调度相关的字词。在应用另一分类的情况下,可以根据相同的模式集查找到其他模式。“聚类”列中的值为元-模式识别的结果。
聚类 | 子集 | 关键词 |
1 | 1 | 生产(Production) |
1 | 1 | 设计(Design) |
1 | 1 | 销售(Sales) |
1 | 2 | 准备(Preparation) |
1 | 2 | 实现(Realization) |
1 | 2 | 测试(Testing) |
1 | 2 | 报告(Reporting) |
2 | 1 | 建立(Building) |
2 | 1 | 房间(Room) |
2 | 2 | 演讲者(Lecturer) |
根据上面的表,假定每个聚类可以有助于特定的代码模板。此外,假定与特定的聚类有关的关键词的每个子集可以有助于代码模板段。第一聚类被假定为描述生产阶段的代码模板。段之一可以描述生产阶段;第二个聚类可以描述生产阶段中的工作处理步骤。代码模板层次可以是:
http://www.greenflower.com/production-phase/process/document
http://www.greenflower.com/design/preparation//document
http://www.greenflower.com/design/realization/document
http://www.greenflower.com/design/testing/document
http://www.greenflower.com/production/preparation/document等。
第二聚类被假定为在第一子集中描述建立结构以及在第二子集中描述建立专业。基于关键词的这两个子集,没有足够的证据用于总结代码模板的语义;需要更多的数据。如果可以查找与描述时间和活动的子集的关 联,则可以得出结论:用于编排时间表的代码模板将是正确的取得。
在本发明的另一实施方式中,当所有新创建的文件将按照根据本发明的方法编码并且至少一部分现有文档必须包括在识别、构造、处理和控制文件的相关的新方法中时,组合这三种情况,以包括现有文档存储组织的主要情形。除了作为本发明的示例性实施方式的对根据这三种情况的现有文件的编码,转变成新型的具有文件的工作需要组织和管理上的辅助以查找现有文档的全面的解决方案。本发明包括编码的技术方面;除了必须考虑的合法的方面,例如,将几个复制保存在特定的存储位置是否是强制性的或是否必须保存特定版本的文件等。管理方面还必须考虑被分配给外部接收者的现有文件(现在编码的)的复制。必须考虑几种情形,例如,外部接收者是否仅保存所接收到的复制并且将不再获得复制的较新的版本或他们是否需要文件的新版本等。在他们需要文件的新版本的情况下,外部接收者必须获得文件的代码以使得能够访问较新的版本,并且在一些情形下他们必须被要求删除以前所接收的版本。在此不讨论所有这些方面,因为他们是管理和业务方法方面;然而,他们与本发明相关。
在本发明的另一实施方式中,可以对根据所有三种所描述的情况的方法进行协调以包括企业中的所有可想象的情形;此外,基于本领域中的大量的现有文件,通过索引和模式识别来扩展关键字或关键词集,目的是建立用于对构造或甚至应用域/领域、服务、搜索等域(应用域)的默认模板集的更多文件进行编码。可以用来自代码模板中的关键字或关键词的子集的真实应用的反馈和这些代码模板从特定来源(特定的领域、主题、创建日期等)到文件的应用性的趋势来对这些关键字的集合进行精化。将该实施方式考虑为关键字生成方法。关键字生成的方法按几种方式来精化,例如整合语言准则和方法,如应用同义词、同形同音异义词或甚至语法等;然而,还对关键字或关键词进行变换(多种语言关键字或关键词生成)。此外,可以应用对应用域的分类以及自我学习算法,例如:基于分类、所生成的关键字集或关键词集以及来自子集的实际应用性的反馈数据。
图6示出了用于为具体的文件内容编译唯一的样本代码模板的系统的主要的建立块。在根据本发明的系统的实施方式中,至少下面的数据库是该系统的一部分:
·关键字和关键词存储库
·分类/本体以及模式存储库
·语言规则和数据存储器
·配置数据库
·关于包括图形表示和节点数据的中介数据的交叉引用数据库和存储设施
·文件存储器
·代码模板存储库(输出结果)
通过数据访问机制访问数据库。下一个较上面的层表示来自业务逻辑层的建立模块,至少:
·图形构造和分析机制
·关键字/关键词和子集建立机制
·关键字/关键词比较机制
·文件搜索和比较机制(抓取)
·代码模板构造机制
·语言处理机制
·关于相似性、等级评定和匹配得到的计算机制
下一个较上面的层表示具有至少下面的建立块的代码模板生成内核:
·包括变换图形分析的分析方法
·计算方法
·比较方法
·模式识别方法
·集合管理
·规则管理
·图形创建和分析管理
·模式管理
·关键字/关键词管理
·配置管理
·服务处理、管理和同步
较上面的部分示出了使得能够进行数据输入和输出以及查找和访问其中代码模板必须被生成用于编码的文件的建立块;至少:
·用户接口
·抓取器
·读/写机制
应当注意,上面所提到的实施方式说明而非限制本发明,并且本领域普通技术人员能够在不脱离所附权利要求的范围的情况下设计很多替选 实施方式。动词“包括”及其变形形式的使用不排除除了权利要求中所陈述的那些元件或步骤之外的其他元件或步骤的存在。元件之前的冠词“一个(a)”或“一个(an)”不排除多个这样的元件的存在。在相互不同的从属权利要求中陈述特定的测量的起码的事实并不表示可以有利地使用这些测量的组合。
Claims (34)
1.一种用于为现有数字样本编译唯一的样本代码的方法,包括:
A)定义至少一个样本代码模板,所述至少一个样本代码模板包括待用于为数字样本建立样本代码的多个样本代码段,所述样本代码段至少包括:
-样本所有者识别代码段,
-样本识别代码段,以及
-至少一个关键词包括代码段,
B)指定用于对数字网络进行样本搜索的至少一个搜索准则,
C)查找满足所述至少一个搜索准则的、到至少一个数字样本在所述数字网络中的存储位置的数字路径,
D)指定待用于建立至少一个样本代码的所述样本代码段的内容,其中,所述样本所有者识别代码段通过所述数字样本的所有者的互联网地址——具体地是IP地址和/或域名——来指定,
E)串接所指定的样本代码段以形成所述样本代码,以及
F)创建在步骤E)期间生成的所述样本代码与在步骤C)期间查找到的所述数字路径之间的交叉引用,以防所述样本代码与所述数字路径相互有区别。
2.根据权利要求1所述的方法,其中,在根据步骤C)查找到至少一个数字样本的所述数字路径之前,根据步骤D)指定至少一个样本代码段。
3.根据权利要求2所述的方法,其中,在根据步骤C)查找到至少一个数字样本的所述数字路径之前,根据步骤D)指定至少一个关键词包括代码段。
4.根据权利要求3所述的方法,其中,在步骤B)期间所定义的至少一个搜索准则基于在步骤D)期间所指定的所述关键词包括代码段的一部分。
5.根据前述权利要求中的任一项所述的方法,其中,手动定义至少一个关键词包括代码段。
6.根据前述权利要求中的一项所述的方法,其中,在根据步骤C)查找到至少一个数字样本的所述数字路径之后,根据步骤D)指定至少一个关键词包括代码段。
7.根据前述权利要求中的一项所述的方法,其中,至少一个搜索准则包括待搜索的文件夹的定义。
8.根据前述权利要求中的一项所述的方法,其中,至少一个搜索准则包括待搜索的样本类型的定义。
9.根据前述权利要求中的一项所述的方法,其中,至少一个搜索准则包括待搜索的数字样本相关的日期范围。
10.根据前述权利要求中的一项所述的方法,其中,在步骤C)期间查找到的所述数字路径的至少一部分——具体地是至少一个文件夹——用于在步骤D)期间指定至少一个关键词包括代码段。
11.根据前述权利要求中的一项所述的方法,其中,在步骤C)期间搜索满足定义的所述至少一个搜索准则的所述至少一个数字样本的内容,以及其中,存在于查找到的所述数字样本中的至少一个关键词、短语、类别、和/或用户定义的代码用于在步骤D)期间指定至少一个关键词包括代码段。
12.根据权利要求11所述的方法,其中,在步骤C)期间搜索至少一个数字样本的内容,随后生成在所述数字样本中查找到的关键词、短语、类别、和/或用户定义的代码的索引,并且基于所述索引指定至少一个关键词包括代码段。
13.根据权利要求12所述的方法,其中,在生成所述索引之前,使用关键词、短语、类别、和/或用户定义的代码的预先定义的排除列表。
14.根据权利要求12或13所述的方法,其中,在所述数字样本中查找到的多个相关的关键词、短语、类别、和/或用户定义的代码被聚类成至少一个子集,以及其中,生成子集的聚类索引,然后基于所述聚类索引指定至少一个关键词包括代码段。
15.根据权利要求14所述的方法,其中,给每个子集分配标记,其中,所述关键词包括代码段是基于分配给所述子集的所述标记来指定的。
16.根据前述权利要求中的任一项所述的方法,其中,所述数字路径表示统一资源定位符(URL)。
17.根据前述权利要求中的任一项所述的方法,其中,所述数字路径是指存储所述数字样本的网页位置。
18.根据前述权利要求中的任一项所述的方法,其中,所述方法包括步骤G),所述步骤G)包括将所述样本代码、所述数字路径以及所述样本代码与所述数字路径之间的所述交叉引用存储在数据库中。
19.根据前述权利要求中的一项所述的方法,其中,所述样本代码和所述数字路径的至少一部分是相同的。
20.根据权利要求19所述的方法,其中,所述数字路径和所述样本代码至少基本上相同。
21.根据前述权利要求中的任一项所述的方法,其中,所述方法包括步骤H),所述步骤H)包括将在步骤E)中形成的所述样本代码转换成机器可读的格式。
22.根据前述权利要求中的任一项所述的方法,其中,所述方法包括步骤I),所述步骤I)包括将所述样本代码的至少所述样本识别代码段变换成另一语言和/或其他字符集。
23.根据前述权利要求中的一项所述的方法,其中,在步骤D)期间通过与所述数字样本相关的可识别的元数据来指定所述样本识别代码段。
24.根据前述权利要求中的一项所述的方法,其中,在步骤A)期间定义的所述样本代码段还包括校验代码段,所述校验代码段表示对至少一个其他样本代码段的预定的数学处理的结果。
25.根据前述权利要求中的一项所述的方法,其中,在步骤A)期间定义至少一个标点符号用于在步骤E)期间分隔相邻的代码段。
26.根据前述权利要求中的一项所述的方法,其中,在步骤A)期间定义待串接的所定义的代码段的顺序。
27.一种具有计算机可执行指令的计算机可读介质,所述计算机可执行指令在被加载到计算机系统上时向所述计算机系统提供如权利要求1至26中的任一项中所要求保护的所述方法的功能。
28.一种如用根据权利要求1至26中的一项所述的方法编译的样本代码。
29.一种用于具体使用根据权利要求1至26中的一项所述的方法为现有数字样本编译唯一的样本代码的系统,包括:
-至少一个样本代码模板生成器,用于定义至少一个样本代码模板,所述至少一个样本代码模板包括待用于为数字样本建立样本代码的多个样本代码段,所述样本代码段至少包括:样本所有者识别代码段、样本识别代码段、以及至少一个关键词包括代码段,
-至少一个搜索准则指定模块,用于对数字网络进行样本搜索,
-数字网络,连接至所述搜索准则指定模块,用于数字样本的存储,
-搜索模块,连接至所述数字网络,用于查找满足通过所述搜索准则指定模块所定义的所述至少一个搜索准则的、到至少一个数字样本在所述网络中的存储位置的数字路径,
-至少一个样本代码段指定模块,连接至所述模板生成器,用于指定通过所述代码模板生成器所定义的所述样本代码段的内容并且用于为通过所述搜索模块查找到的至少一个数字样本生成样本代码,其中,所述样本所有者识别代码段通过所述数字样本的所有者的互联网地址——具体地是IP地址和/或域名——来指定,以及
-至少一个数据库,用于存储所生成的样本代码与能够获得对所述数字样本的访问的到数字位置的所述数字路径之间的至少一个交叉引用,以防所述样本代码与所述数字路径相互有区别。
30.根据权利要求29所述的系统,其中,所述搜索模块被配置成搜索存储在所述网络上的并且满足通过所述搜索准则指定模块所定义的所述至少一个搜索准则的至少一个数字样本的内容的至少一部分。
31.根据权利要求29或30所述的系统,其中,所述系统还包括样本分析模块,所述样本分析模块连接至所述搜索模块和所述样本代码指定模块,用于由所述搜索模块提供的所述搜索结果的分析。
32.根据权利要求31所述的系统,其中,所述分析模块被配置成对所述搜索结果分层次地排序和/或聚类。
33.根据权利要求29至32中的一项所述的系统,其中,所述系统还包括样本存储装置,所述样本存储装置用于将数字样本存储在所述数字路径存储在所述数据库中的数字位置处。
34.根据权利要求29至33中的一项所述的系统,其中,所述系统还包括用于将所生成的样本代码传送给用户的传送模块。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/NL2010/050788 WO2012070931A1 (en) | 2010-11-24 | 2010-11-24 | Method and system for compiling a unique sample code for an existing digital sample |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103329124A true CN103329124A (zh) | 2013-09-25 |
Family
ID=43569199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800709111A Pending CN103329124A (zh) | 2010-11-24 | 2010-11-24 | 用于为现有数字样本编译唯一的样本代码的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20130283231A1 (zh) |
EP (1) | EP2643772A1 (zh) |
CN (1) | CN103329124A (zh) |
WO (1) | WO2012070931A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528265A (zh) * | 2015-12-22 | 2016-04-27 | 深圳市东微智能科技有限公司 | 一种参数保存的方法及电子装置 |
CN112000568A (zh) * | 2020-07-10 | 2020-11-27 | 西安广和通无线软件有限公司 | 技术代码测试方法、装置、计算机设备和存储介质 |
CN112015906A (zh) * | 2020-08-06 | 2020-12-01 | 东北大学 | 网络配置知识图谱的构建方案 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130182974A1 (en) * | 2012-01-13 | 2013-07-18 | Honeywell International, Inc. doing business as (d.b.a.) Honeywell Scanning & Mobility | System and method for obtaining and routing electronic copies of documents |
CN105468694B (zh) * | 2015-11-17 | 2019-10-15 | 小米科技有限责任公司 | 挖掘信息模板的方法及装置 |
US20170242668A1 (en) * | 2016-02-24 | 2017-08-24 | Microsoft Technology Licensing, Llc | Content publishing |
US10305729B2 (en) * | 2016-09-02 | 2019-05-28 | Nokia Of America Corporation | Systems and methods of providing an edge cloud storage and caching system operating over a local area network |
US11816459B2 (en) * | 2016-11-16 | 2023-11-14 | Native Ui, Inc. | Graphical user interface programming system |
US11100152B2 (en) * | 2017-08-17 | 2021-08-24 | Target Brands, Inc. | Data portal |
US11487520B2 (en) | 2017-12-01 | 2022-11-01 | Cotiviti, Inc. | Automatically generating reasoning graphs |
US11580152B1 (en) * | 2020-02-24 | 2023-02-14 | Amazon Technologies, Inc. | Using path-based indexing to access media recordings stored in a media storage service |
US11615139B2 (en) * | 2021-07-06 | 2023-03-28 | Rovi Guides, Inc. | Generating verified content profiles for user generated content |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060011720A1 (en) * | 1998-03-27 | 2006-01-19 | Call Charles G | Methods and apparatus for transferring product information from manufacturers to retailers and distributors via the Internet |
WO2006076424A2 (en) * | 2005-01-11 | 2006-07-20 | Content Directions, Inc . | Apparatuses, methods and sytems for integrated, information-engineered and self-imposing advertising, e-commerce and online customer interactions |
NL2003447C2 (nl) * | 2009-05-20 | 2010-08-16 | Megchelen & Tilanus B V Van | Werkwijze en systeem voor coderen en specificeren van een object. |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
US5859601A (en) * | 1996-04-05 | 1999-01-12 | Regents Of The University Of Minnesota | Method and apparatus for implementing maximum transition run codes |
US6229464B1 (en) * | 1999-08-24 | 2001-05-08 | Thomson Licensing S.A. | Pulse code modulated to DC centered VSB converter |
US8856871B2 (en) * | 2010-05-20 | 2014-10-07 | Van Megchelen & Tilanus B.V. | Method and system for compiling a unique sample code for specific web content |
WO2012070930A1 (en) * | 2010-11-24 | 2012-05-31 | Greenflower Intercode Holding B.V. | User -friendly method and system for compiling a unique sample code for a digital sample with the help of a user - interface |
-
2010
- 2010-11-24 CN CN2010800709111A patent/CN103329124A/zh active Pending
- 2010-11-24 EP EP10793062.0A patent/EP2643772A1/en not_active Withdrawn
- 2010-11-24 US US13/989,615 patent/US20130283231A1/en not_active Abandoned
- 2010-11-24 WO PCT/NL2010/050788 patent/WO2012070931A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060011720A1 (en) * | 1998-03-27 | 2006-01-19 | Call Charles G | Methods and apparatus for transferring product information from manufacturers to retailers and distributors via the Internet |
WO2006076424A2 (en) * | 2005-01-11 | 2006-07-20 | Content Directions, Inc . | Apparatuses, methods and sytems for integrated, information-engineered and self-imposing advertising, e-commerce and online customer interactions |
NL2003447C2 (nl) * | 2009-05-20 | 2010-08-16 | Megchelen & Tilanus B V Van | Werkwijze en systeem voor coderen en specificeren van een object. |
Non-Patent Citations (1)
Title |
---|
YONG TU ET AL.: ""developing a registration system for the scientific content using DOI"", 《FOURTH INTERNATIONAL CONFERENCE ON COOPERATION AND PROMOTION OF INFORMATION RESOURCES IN SCIENCE AND TECHNOLOGY》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528265A (zh) * | 2015-12-22 | 2016-04-27 | 深圳市东微智能科技有限公司 | 一种参数保存的方法及电子装置 |
CN105528265B (zh) * | 2015-12-22 | 2018-08-10 | 深圳市东微智能科技股份有限公司 | 一种参数保存的方法及电子装置 |
CN112000568A (zh) * | 2020-07-10 | 2020-11-27 | 西安广和通无线软件有限公司 | 技术代码测试方法、装置、计算机设备和存储介质 |
CN112000568B (zh) * | 2020-07-10 | 2024-05-10 | 西安广和通无线软件有限公司 | 技术代码测试方法、装置、计算机设备和存储介质 |
CN112015906A (zh) * | 2020-08-06 | 2020-12-01 | 东北大学 | 网络配置知识图谱的构建方案 |
CN112015906B (zh) * | 2020-08-06 | 2024-05-03 | 东北大学 | 网络配置知识图谱的构建方案 |
Also Published As
Publication number | Publication date |
---|---|
WO2012070931A1 (en) | 2012-05-31 |
EP2643772A1 (en) | 2013-10-02 |
US20130283231A1 (en) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103329124A (zh) | 用于为现有数字样本编译唯一的样本代码的方法和系统 | |
Meroño-Peñuela et al. | Semantic technologies for historical research: A survey | |
Baca | Introduction to metadata | |
JP6016843B2 (ja) | ユーザ駆動によるセマンティックネットワークの動的生成およびメディア統合のための方法、システム、ならびにコンピュータプログラム | |
CN103348341A (zh) | 用于在用户界面的帮助下为数字样本编译唯一的样本代码的用户友好的方法和系统 | |
JP4852288B2 (ja) | ピアツーピア情報交換における意味相互運用性のための自己組織化方法 | |
CN101833730A (zh) | 个性化数字出版系统及其方法 | |
Vairavasundaram et al. | Applying semantic relations for automatic topic ontology construction | |
Brusaporci | The representation of architectural heritage in the digital age | |
Younger | Resource description in the digital age | |
Yellepeddi et al. | Accurate approach towards efficiency of searching agents in digital libraries using keywords | |
Ayre et al. | The right to preserve | |
Veve | Supporting name authority control in XML metadata: a practical approach at the University of Tennessee | |
Tebernum et al. | DERM: A Reference Model for Data Engineering. | |
Fabian et al. | Piloting a national programme for the digitization of medieval manuscripts in Germany | |
Riley et al. | The IN Harmony project: Developing a flexible metadata model for the description and discovery of sheet music | |
ElGindy et al. | Capturing place semantics on the geosocial web | |
Pessach | The political economy of digital cultural preservation | |
CN107894991A (zh) | 一种个性化数字出版系统及方法 | |
Asano et al. | Constructing a Site for Publishing Open Data of the Ministry of Economy, Trade, and Industry: —A Practice for 5-Star Open Data— | |
Pearson | Rare book librarianship and historical bibliography | |
Felicetti et al. | The open data semantics and the (re) use of open information in cultural heritage | |
Furner | Archival IR: Applying and adapting information retrieval approaches in archives and recordkeeping research | |
Calhoun | Key themes and challenges in digital libraries | |
Clifford Neuman | Prospero: a tool for organizing internet resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130925 |